Педагогическое прогнозирование в интеллектуальных системах DATA MINING

Применение компьютерных систем Data Mining как эффективное средство добычи знаний и прогнозирования

Термин «Data Mining» переводится как «добыча» или «раскопка» (elicitation) данных. Часто совместно с этим понятием начинают использовать и другие близкие по смыслу словосочетания: «добытчик данных» (data miner), «обнаружение знаний в базах данных (knowledge discovery in databases) и «методы искусственного интеллекта» (artificial intelligence).

Дело в том, что педагог, решая свои профессиональные проблемы, всегда опирается на свои знания и опыт. Однако знания есть не только у преподавателя, но и в накопленных данных, которые подвергаются анализу. К этим данным относят информационные базы ответов и решений заданий контрольных срезов обучаемых; накопленные оценки и характеристики в академических (классных) журналах, табелях, ведомостях успеваемости, анкетные данные различных психологопедагогических опросов, результаты анкетирования и тестирования, итоги различных диагностических карт, научные исследования мониторинговых групп и т. п. Огромные объемы накопленного материала в виде описания методик, рекомендаций и выводов по результатам педагогического опыта учителей-поваторов, преподавателей- исследователей, ученых-педагогов, которые хранятся на бумажной основе и в электронном виде (в том числе и в сети Интернет), можно тоже отнести к информационным базам. Такие знания часто называют «скрытыми», «сырыми», так как они содержатся в необработанных и не систематизированных массивах информации, которые преподаватель не в состоянии самостоятельно переработать и исследовать.

Поэтому для обнаружения этих скрытых знаний, спрятанных и рассеянных в больших объемах данных, и были придуманы специальные компьютерные системы, работающие на основе идей искусственного интеллекта. При помощи таких систем можно реально извлекать (добывать) новые знания из «завалов» информационных массивов для принятия образовательных решений в условиях неопределенности. Именно такое направление раскопки данных и получило название Data Mining.

Еще в 1996 г. определение понятия Data Mining дал один из основателей этого направления - Григорий Пиатецкий-Шапиро. Он под словосочетанием «добыча данных» понимал процесс обнаружения в сырых данных скрытых знаний, причем таких, которые удовлетворяли бы следующим требованиям: 1) они не должны быть известны ранее, 2) нетривиальны, 3) практически полезны, 4) доступны для интерпретации человека.

Сейчас под Data Mining понимают класс (направление) компьютерных программных средств, работающих на идеях искусственного интеллекта, и которые представляют собою моделирующие информационные системы анализа, систематизации, инженерии знаний, и которые выявляют (добывают) скрытые закономерности для оптимизации и прогнозирования поведения исследуемой системы (образца, набора значений, показателей, данных и т. п.), с целью принятия окончательных решений в условиях неопределенности.

Компьютерные системы добычи знаний синтезируют классические методы анализа данных с методами работы нейронных сетей, дополняя их качественно новыми методами, включая: методы классификации и кластеризации, методы регрессии и многомерных адаптивных сплайнов, чистки и фильтрации данных, бурения и расслоения, многомерной разведки, анализа независимых компонент, подгонки и объединения групп.

Искусственная нейронная сеть обучается классифицировать элементы в соответствии с заложенными для нее инструкциями (см. пример 2.1). А вот при обучении без управления, таких инструкций у нее нет, и нейронной сети приходится проводить кластеризацию образцов. Под кластеризацией понимают разделение (соотнесение) элементов па группы. Все элементы одного кластера должны иметь что-то общее - они будут оцениваться, как подобные. Предположим, например, что перед нами стоит задача классификации методов обучения в соответствии с определенным признаком, например по использованию слова (словесный метод) или по наглядности (наглядный метод) на занятии. Все методы подобные рассказу попадут в одну группу, а все методы, подобные демонстрации, - в другую. Эти группы затем анализируются, и от группы подобных методу рассказа отделяется группа методов демонстраций (наглядные методы). Группа методов типа рассказ подобна группе методов, подобных методу лекция, поэтому эти объединения должны разместиться близко одна к другой и далеко от группы элементов, подобных методу демонстраций. Но, в тоже время, эти оба кластера очень близки друг к другу, так как они относятся к одной и той же классификационной группе (это так называемая группа традиционных методов обучения), и не относятся к другим группам методов, например, по назначению, по дидактическим целям или по типу познавательной деятельности (см. [47, с. 474- 477]). Алгоритмы кластеризации и выполняют такие операции с элементами данных. Такие группы объединений в дальнейшем мы будем называть кластерами и предполагать, что разделение элементов на кластеры должно удовлетворять следующим двум требованиям.

  • 1. Элементы внутри одного кластера должны быть в некотором смысле подобны.
  • 2. Кластеры, подобные в некотором смысле, должны размешаться близко один от другого.

Основная идея работы технологий Data Mining основывается на концепции шаблонов (их называют паттерны), отражающих алгоритмы многокомпонентных взаимоотношений и взаимосвязей между элементами данных. При этом для их поиска используются необычные методы, которые не имеют ограничений на структуру и вид распределений анализируемых значений. Такой механизм работы интеллектуальных систем не дает возможности пользователю выяснить природу участвующих в нахождении функций и закономерностей, но зато позволяет выявить конкретный вид этих зависимостей между переменными и находит эффективные решения для построения достоверных прогнозов, для нахождения реальных связей и регулярностей между переменными. При этом на ранних стадиях анализа происходит не совсем точное соответствие построенных моделей реальному миру, но это не дает повода сомневаться в достоверности полученных окончательных результатов. Дело в том, что в процессе работы модели самокорректируются (самосовершенствуются), поскольку предварительно «осмысленные» параметры постоянно улучшаются. Такой процесс называется обучением моделей, причем, на каждом предыдущем этапе (шаге), всегда отбираются иаилучшие алгоритмы и результаты работы, они запоминаются, и на последующих шагах (итерациях) используются для анализа в новых условиях, с другими наборами данных. Таким образом, и сама модель, и результаты ее работы постоянно улучшаются.

Системы Data Mining очень удобно использовать в педагогическом прогнозировании, поскольку именно они могут работать в условиях частичной неопределенности, противоречивости имеющихся педагогических данных, неполноты анализируемой информации, а часто, даже в условиях полного отсутствия достоверной учебно- воспитательной информации об объекте изучения. Ведь, многие обучаемые по-разному воспринимают информационно-образовательную среду и учебный материал, а иногда совсем неадекватно воссоздают реакции на учебно-воспитательные действия преподавателя, находясь под влиянием личностных выгод или ошибочных установок и стереотипов, разного рода зависимостей: от товарищей, внутренних и внешних авторитетов (в том числе, неформальных лидеров своего окружения, кино- и литературных героев и т. и.), политического, ментального, националистического, религиозно-духовного влияния т. д. В условиях постоянной смены педагогической информации (ее обновления), большого количества данных (фактов, причин) для обработки, очень удобными являются компьютерные интеллектуальные системы такого типа.

Трудность здесь возникает только в плане их эксплуатации и сопровождения, поскольку большая часть педагогов являются гуманитариями, которые не до конца понимают сущность работы информационных систем, имеют недостаточную математическую подготовку и невысокую информационную культуру.

Тот факт, что крупнейшие и авторитетнейшие фирмы, производители высоких технологий начали разработку программных систем добычи знаний, говорит о том, что они имеют большую значимость для человечества и высокую востребованность в будущем, в том числе и в педагогике. Понимание того, что сырые данные (raw data) содержат глубинный пласт новых педагогических знаний, приводит к тому, что и педагогика как наука не может сейчас обойтись без использования таких интеллектуальных систем.

Существует много разных классов систем Data Mining (см. Приложение Д), среди них выделяют: предметно-

ориентированные аналитические системы и чисто статистические пакеты, к которым можно отнести SAS (компания SAS Institute), SPSS (фирма SPSS), STATGRAPICS (Manugistics), STATISTICA, STADI. С точки зрения компыотациониого (то есть, вычислительного с помощью компьютерной техники) прогнозирования, наибольший интерес представляет класс нейронных систем. Примерами нейронных систем являются программные продукты: BrainMaker (фирмы CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic), Neuro Builder (Росбизнесконсалтинг, Россия). Наиболее известным среди таких средств является пакет STATISTICA Neural Networks (производитель StatSoft). Важным преимуществом этого программного приложения является то, что оно естественным образом встроено в мощный арсенал аналитических средств программы STATISTICA. Именно соединение классических и нейросетевых методов дает нужный эффект в прогнозировании [36]. Именно работой в этом программном приложении мы и займемся в следующих пунктах.

Вопросы

  • 1. Что обозначает термин «Data Mining»?
  • 2. Дайте определение понятия Data Mining по Пиатецкому- Шапиро.
  • 3. Перечислите методы, которыми оперируют компьютерные системы добычи знаний.
  • 4. На какой концепции основывается идея работы технологий Data Mining?
  • 5. Можно ли утверждать, что механизм работы интеллектуальных систем добычи знаний не дает возможности пользователю выяснить природу участвующих в нахождении функций и закономерностей?
  • 6. Почему системы Data Mining очень удобно использовать в педагогическом прогнозировании?
  • 7. На какие два основных класса делятся программные реализации систем Data Mining?
  • 8. Перечислите программные пакеты, которые реализуют технологии добычи данных из больших массивов информации.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >