Классификация аналитических систем
Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин " Business Intelligence " (BI), деловой интеллект или бизнес-интеллект.
Business Intelligence (BI) - программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений. Понятие BI объединяет в себе различные средства и технологии анализа и обработки данных масштаба предприятия. BI-системы также известны под названием Систем Поддержки Принятия Решений (СППР, DSS, Decision Support System). Эти системы превращают данные в информацию, на основе которой можно принимать решения, т.е. поддерживающую принятие решений.
Gartner Group определяет состав рынка систем Business Intelligence как набор программных продуктов следующих классов:
средства построения хранилищ данных (data warehousing, ХД);
системы оперативной аналитической обработки (OLAP);
информационно-аналитические системы (Enterprise Information Systems, EIS);
средства интеллектуального анализа данных (data mining);
инструменты для выполнения запросов и построения отчетов (query and reporting tools).
Методы и стадии Data Mining
Основная особенность Data Mining - это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий. В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализ данных.
Классификация стадий Data Mining
Стадия 1. Выявление закономерностей (свободный поиск).
Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование).
В дополнение к этим стадиям иногда вводят стадию валидации, следующую за стадией свободного поиска. Цель валидации - проверка достоверности найденных закономерностей. (Однако, можно считать валидацию частью первой стадии)
Стадия 3. Анализ исключений - стадия предназначена для выявления и объяснения аномалий, найденных в закономерностях.
Рассмотрим выделенные стадии подробнее.
Стадия 1. Свободный поиск (Discovery)
На стадии свободного поиска осуществляется исследование набора данных с целью поиска скрытых закономерностей. Предварительные гипотезы относительно вида закономерностей здесь не определяются.
Закономерность (law) - существенная и постоянно повторяющаяся взаимосвязь, определяющая этапы и формы процесса становления, развития различных явлений или процессов.
Система Data Mining на этой стадии определяет шаблоны, для получения которых в системах OLAP, например, аналитику необходимо обдумывать и создавать множество запросов. Здесь же аналитик освобождается от такой работы - шаблоны ищет за него система. Особенно полезно применение данного подхода в сверхбольших базах данных, где уловить закономерность путем создания запросов достаточно сложно, для этого требуется перепробовать множество разнообразных вариантов.
Свободный поиск представлен такими действиями:
- • выявление закономерностей условной логики (conditional logic);
- • выявление закономерностей ассоциативной логики (associations and affinities);
- • выявление трендов и колебаний (trends and variations).
Стадия 2. Прогностическое моделирование(РгейісіїУе Modeling)
Вторая стадия Data Mining использует результаты работы первой стадии. Здесь обнаруженные закономерности используются непосредственно для прогнозирования.
Прогностическое моделирование включает такие действия:
- - предсказание неизвестных значений (outcome prediction);
- - прогнозирование развития процессов (forecasting).
В процессе прогностического моделирования решаются задачи классификации и прогнозирования.
При решении задачи классификации результаты работы первой стадии (индукции правил) используются для отнесения нового объекта, с определенной уверенностью, к одному из известных, предопределенных классов на основании известных значений.
При решении задачи прогнозирования результаты первой стадии (определение тренда или колебаний) используются для предсказания неизвестных (пропущенных или же будущих) значений целевой переменной (переменных).
Стадия 3. Анализ исключений (forensic analysis)
На третьей стадии Data Mining анализируются исключения или аномалии, выявленные в найденных закономерностях.
Действие, выполняемое на этой стадии, - выявление отклонений (deviation detection). Для выявления отклонений необходимо определить норму, которая рассчитывается на стадии свободного поиска.