Основные понятия интеллектуального анализа данных

Определение интеллектуального анализа данных

Понятие «интеллектуальный анализ данных» (НАД) имеет множество синонимов:

  • • добыча данных;
  • • извлечение информации;
  • • раскопка данных;
  • • интеллектуальный анализ данных;
  • • средства поиска закономерностей;
  • • извлечение знаний;
  • • анализ шаблонов;
  • • «извлечение зёрен знаний из гор данных»;
  • • раскопка знаний в базах данных;
  • • информационная проходка данных;
  • • «промывание» данных;
  • • обнаружение знаний в базах данных.

Однако наиболее известным из всех перечисленных является «добыча данных» - дословный перевод английского словосочетания «Data Mining». Хотя корректнее говорить, что интеллектуальный анализ данных является синонимом Data Mining, учитывая происхождение этого термина и направления (технологии), которое он обозначает.

Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

До начала 90-х годов прошлого века, казалось, не было особой нужды переосмысливать ситуацию в этой области. Все шло своим чередом в рамках направления, называемого прикладной статистикой. Теоретики проводили конференции и семинары, писали внушительные статьи и монографии, изобиловавшие аналитическими выкладками.

Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы для решения реальных задач в большинстве случаев оказываются бесплодными. Но на озабоченность практиков до поры до времени можно было не обращать особого внимания - они решали, главным образом, свои частные проблемы обработки небольших локальных баз данных.

И вот прозвенел звонок. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной «руды» в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т. д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых (raw) данных образуют никому не нужную свалку.

Специфика современных требований к подобной переработке такова:

  • • данные имеют неограниченный объём;
  • • данные являются разнородными (количественными, качественными, текстовыми);
  • • результаты должны быть конкретны и понятны;
  • • инструменты для обработки сырых данных должны быть просты в использовании.

Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина - концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг, т. п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для «грубого» разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).

В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей. Примеры заданий на такой поиск при использовании Data Mining приведены в табл. 1.1.

Таблица 1.1

OLAP

ИАД

Каковы средние показатели травматизма для курящих и некурящих?

Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму?

Каковы средние размеры счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телекоммуникационной компании)?

Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телекоммуникационной компании?

Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карте?

Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными картами?

Важное положение ИАД - нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). К обществу пришло понимание того, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки (рис. 1.1).

В целом технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро - один из основателей этого направления.

Data Mining - это процесс обнаружения в сырых данных:

  • • ранее неизвестных;
  • • нетривиальных;
  • • практически полезных;
  • • доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Уровни знаний, извлекаемых из данных

Рис. 1.1. Уровни знаний, извлекаемых из данных.

Сфера применения Data Mining ничем не ограничена - она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня, мягко говоря, заинтриговали коммерческие предприятия, развёртывающие проекты на основе информационных хранилищ данных (Data Warehousing). Опыт таких предприятий показывает, что отдача от использования Data Mining может достигать 1000 %. Например, известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от $350 до $750 тыс. Известны сведения о проекте в $20 млн, который окупился всего за 4 месяца. Другой пример - годовая экономия $700 тыс. за счёт внедрения Data Mining в сети универсамов в Великобритании.

Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности.

Кратко охарактеризуем некоторые возможные бизнес- приложения Data Mining.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >