Системы рассуждений на основе аналогичных случаев.

Идея систем на первый взгляд крайне проста. Для того чтобы прогнозировать будущее или выбрать правильное решение, эти системы находят в прошлом близкие аналоги текущей ситуации и выбирают тот же ответ, который был для них правильным. Поэтому данный метод называют еще методом «ближайшего соседа». Системы показывают хорошие результаты в самых разнообразных задачах. Главным их недостатком считают то, что они вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт. В выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов они строят свои ответы. Другой недостаток заключается в произволе, который допускают эти системы при выборе меры «близости». От этой меры самым решительным образом зависит объем множества прецедентов, которые нужно хранить в памяти для достижения удовлетворительной классификации или прогноза.

Деревья решений — один из наиболее популярных подходов к решению задач Data Mining. Они создают иерархическую структуру классифицирующих правил типа «если... то...», имеющую вид дерева. Для того чтобы решить, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид «значение параметра Л больше X». Если ответ положительный, осуществляется переход к правому узлу следующего уровня; если ответ отрицательный, то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом.

Популярность подхода связана с его наглядностью и простотой понимания. Но для деревьев решений очень острой является проблема значимости. Дело в том, что отдельным узлам на каждом новом построенном уровне дерева соответствует все меньше и меньше записей данных. Дерево дробит данные на большое число частных случаев. Чем больше этих частных случаев, чем меньше обучающих примеров попадает в каждый такой частный случай, тем менее уверенной становится их классификация. Если построенное дерево слишком «кустистое», состоит из неоправданно большого числа мелких «веточек», то оно не будет давать статистически обоснованных ответов. Как показывает практика, в большинстве систем, использующих деревья решений, эта проблема не находит удовлетворительного решения. Кроме того, общеизвестно, что деревья решений дают полезные результаты только при наличии независимых признаков. В противном случае они лишь создают иллюзию логического вывода.

Этот метод использует довольно много систем. Самыми распространенными являются See5/C5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США).

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >