ХРАНИЛИЩА ДАННЫХ

Интеллектуальные базы данных (ИБД) отличаются от обычных баз данных возможностью выборки по запросу необходимой информации, которая может явно не храниться, а выводиться из имеющейся в базе данных. Примерами таких запросов могут быть следующие:

  • - “Вывести список товаров, цена которых выше среднеотраслевой”,
  • - “Вывести список товаров-заменителей некоторой продукции”,
  • - “Вывести список потенциальных покупателей некоторого товара” и т.д.

Для выполнения первого типа запроса необходимо сначала проведение статистического расчета среднеотраслевой цены по всей базе данных, а уже после этого собственно отбор данных. Для выполнения второго типа запроса необходимо вывести значения характерных признаков объекта, а затем поиск по ним аналогичных объектов. Для третьего типа запроса требуется сначала определить список посредников-продавцов, выполняющих продажу данного товара, а затем провести поиск связанных с ними покупателей.

Во всех перечисленных типах запросов требуется осуществить поиск по условию, которое должно быть доопределено в ходе решения задачи. Интеллектуальная система без помощи пользователя по структуре базы данных сама строит путь доступа к файлам данных. Формулирование запроса осуществляется в диалоге с пользователем, последовательность шагов которого выполняется в максимально удобной для пользователя форме.

В отличие от ИБД информационное хранилище (Data Warehouse) представляет собой хранилище извлеченной значимой информации из оперативной базы данных, которое предназначено для оперативного анализа данных. Извлечение знаний из баз данных осуществляется регулярно, например, ежедневно.

Типичными задачами оперативного ситуационного анализа являются:

  • • определение профиля потребителей конкретного товара;
  • • предсказание изменений ситуации на рынке;
  • • анализ зависимостей признаков ситуаций (корреляционный анализ) и др.

Для извлечения значимой информации из баз данных используются специальные методы (Data Mining или Knowledge Discovery), основанные или на применении многомерных статистических таблиц, или индуктивных методов построения деревьев решений, или нейронных сетей. Формулирование запроса осуществляется в результате применения интеллектуального интерфейса, позволяющего в диалоге гибко определять значимые признаки анализа.

Разработкой и распространением информационных хранилищ в настоящее время занимаются такие компьютерные фирмы, как IBM (Intelligent Miner), Silicon Graphics (MineSet), Intersolv (DataDirect, SmartData), Oracle (Express), SAS Institute (SAS/Assist) и др.

Хранилище данных (Data Warehouse) — предметно ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Строится на базе систем управления базами данных и систем поддержки принятия решений. Данные, поступающие в хранилище данных, как правило, доступны только для чтения. Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы построение отчётов и OLAP-анализ не использовал ресурсы транзакционной системы и не нарушал её стабильность. Как правило, данные загружаются в хранилище с определённой периодичностью, поэтому актуальность данных может несколько отставать от OLTP-системы.

При организации хранилища учитывается ряд принципов.

  • 1. Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
  • 2. Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.
  • 3. Некорректируемость. Данные в хранилище данных не создаются: т.е. поступают из внешних источников, не корректируются и не удаляются.
  • 4. Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Существуют два архитектурных направления дизайна хранилищ -нормализованные хранилища данных и хранилища с измерениями.

В нормализованных хранилищах данные находятся в предметно ориентированных таблицах третьей нормальной формы. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ - большое количество таблиц как следствие нормализации, из-за чего для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы.

Хранилища с измерениями используют схему «звезда» или схему «снежинка». При этом в центре «звезды» находятся данные (Таблица фактов), а измерения образуют лучи звезды. Различные таблицы фактов совместно используют таблицы измерений, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (Пример - факты продаж и поставок товара). Таблицы данных и соответствующие измерения образуют архитектуру «шина». Измерения часто создаются в третьей нормальной форме, в том числе, для протоколирования изменения в измерениях. Основными достоинствами хранилищ с измерениями является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным измерениям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основными недостатками являются более сложные процедуры подготовки и загрузки данных, а также управление и изменение измерений данных.

В хранилище происходят процессы работы с данными. При этом источниками данных могут быть как традиционные системы регистрации операций, так и отдельные документы; наборы данных.

Перечислим операции с данными:

  • 1) извлечение - перемещение информации от источников данных в отдельную БД, приведение их к единому формату;
  • 2) преобразование - подготовка информации к хранению в оптимальной форме для реализации запроса, необходимого для принятия решений;
  • 3) загрузка - помещение данных в хранилище, производится атомарно, путем добавления новых фактов или корректировкой существующих;
  • 4) анализ - OLAP, Data Mining, сводные отчёты;

5) представление результатов анализа.

Вся эта информация используется в словаре метаданных. В словарь метаданных автоматически включаются словари источников данных. Здесь же форматы данных для их последующего согласования, периодичность пополнения данных, согласованность во времени. Задача словаря метаданных состоит в том, чтобы освободить разработчика от необходимости стандартизировать источники данных.

Создание хранилищ данных не должно противоречить действующим системам сбора и обработки информации. Специальные компоненты словарей должны обеспечивать своевременное извлечение из словарей и обеспечить преобразование к единому формату на основе словаря метаданных.

Логическая структура данных хранилища данных отличается от структуры данных источников данных. Для разработки эффективного процесса преобразования необходима хорошо проработанная модель корпоративных данных и модель технологии принятия решений.

Данные для пользователя удобно представлять в многомерных БД, где в качестве измерения могут выступать время, цена или географический регион.

Кроме извлечения данных из БД, принятия решений важен процесс извлечения знаний, в соответствии с информационными потребностями пользователя.

С точки зрения пользователя в процессе извлечения знаний из БД должны решаться следующие преобразования: данные —> информация —> знания —> полученные решения.

В последние годы необходимость обращения с накопленной корпоративной информацией, как с Большими данными, осознало большое число российских компаний. Технологии обработки Больших Данных, казавшиеся экзотикой, стали находить промышленное применение, вендоры выпустили новые средства хранения, анализа и защиты Больших Данных, наконец, работа с Большими Данными стала еще активнее рассматриваться в контексте облачных сервисов, причем не только частных, ио и публичных. Более того, многие аналитики полагают, что именно Большие Данные станут катализатором бурного развития облачных инфраструктур.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >