Укрощение больших данных [Билл Фрэнкс] (pdf) читать постранично, страница - 3

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

к ним доступ и проанализировать их.
Сама по себе тема управления большими данными не обеспечивает движения вперед. Для того чтобы извлечь пользу из данных,
необходимо проанализировать их и совершить какое-либо действие

14

 Укрощение больших данных

на основании результатов анализа. Так же как традиционные инструменты управления базами данных не обеспечивали автоматический
анализ данных о транзакциях, полученных из традиционных систем,
системы Hadoop и MapReduce не производят автоматическую интерпретацию данных, полученных от сайтов, картирования генов, анализа изображений или других источников больших данных. Даже
до наступ­ления эпохи больших данных многие организации многие
годы (а иногда и десятилетия) занимались исключительно управлением данными, не извлекая из них никакой пользы в плане улучшения качества анализа и принятия решений.
Думаю, эта книга акцентирует внимание именно на том, на чем
нужно. Она в первую очередь посвящена эффективному анализу больших объемов данных, а не управлению ими. Она начинается с данных
и переходит к таким темам, как фреймовое представление решения,
построение аналитического центра и создание аналитической культуры. Разумеется, здесь упоминается об управлении большими данными,
однако основное внимание уделено созданию, организации, подбору
персонала и воплощению аналитических инициатив, которые позволяют извлечь из входных данных пользу.
На тот случай, если вы этого не заметили: в настоящее время тема
аналитики крайне актуальна в бизнес-среде. Я занимался в основном
вопросами конкуренции компаний в области аналитики, и мои книги
и статьи по этой теме были самыми популярными из всех, что я когдалибо писал. Конференции на тему аналитики проводятся повсеместно.
У таких крупных консалтинговых фирм, как Accenture, Deloitte и IBM,
имеется большой практический опыт в этой области. Многие компании, государственные и даже некоммерческие организации сделали
аналитику своим стратегическим приоритетом. Сегодня наблюдается
повышенный интерес к проблеме больших данных, однако в центре
внимания должны по-прежнему оставаться способы приведения этих
данных в форму, позволяющую проанализировать их и использовать
в процессе принятия решений.
Билл Фрэнкс находится в уникальном положении: он может описать пересечение области больших данных и аналитики. Его компания Teradata, в отличие от других поставщиков систем хранения
данных, всегда была максимально сосредоточена именно на анализе
данных и извлечении из них пользы для бизнеса. И хотя компания

Предисловие 

15

хорошо известна как поставщик корпоративных инструментов для
хранения данных, Teradata в течение многих лет также предоставляла
набор аналитических приложений.
За последние несколько лет Teradata наладила тесное партнерство
с SAS — ведущим поставщиком аналитического программного обеспечения — для разработки высокомасштабируемых инструментов проведения анализа больших баз данных. Эти инструменты, которые часто
подразумевают встроенный анализ в среде хранилища данных, предназначены для таких мощных аналитических приложений, как системы
обнаружения мошенничества в режиме реального времени и крупномасштабного скоринга* покупательского поведения потребителей. Билл
Фрэнкс — скоринг-директор по аналитике этого партнерства и поэтому
имеет доступ к идеям и опыту в области проведения крупномасштаб­
ного анализа и «обработки в базе данных». Вероятно, лучшего источника на эту тему просто не существует.
Так что же еще особенно интересного и важного содержится в этой
книге?
ff Глава 1 включает в себя обзор концепции больших данных и объясняет, что «размер не всегда имеет значение». На протяжении
всей книги Фрэнкс отмечает, что бо' льшая часть данных вообще
бесполезна и очень важно уметь отфильтровывать ненужные
данные.
ff Обзор источников больших данных в главе 3 — интересный, полезный и необыкновенно подробный каталог. Подход к веб-данным и веб-аналитике в главе 2 может заинтересовать людей
и организации, которые стремятся понять поведение потребителей, совершающих покупки через интернет. Этот подход выходит далеко за рамки обычной веб-аналитики, ориентированной
на отчетность.
ff Глава 4, посвященная «эволюции масштабируемости аналитических систем», представит вам технологические платформы для
*

Скоринг (англ. score — подсчет очков) — система оценки кредитоспособности,
в основу которой положены численные статистические методы обработки анкет
потенциальных заемщиков. Суть ее в том, что за каждую позицию анкеты («стаж
работы» или «количество детей») потенциальный заемщик получает некое количество баллов. В зависимости от суммы набранных баллов принимается решение
об одобрении или отказе в выдаче кредита. Прим. ред.

16

 Укрощение больших данных

больших данных и аналитики с такой точки зрения, которую
вы