Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные технологии в государственном и муниципальном управлении
Посмотреть оригинал

Современные методы поиска.

В современных информационных системах реализованы различные методы поиска.

1. Контекстный поиск. Средства контекстного поиска позволяют искать документы по содержащимся в них словам и фразам, которые могут объединяться логическими операциями. Результаты поиска ранжируются по релевантности (соответствию критерию поиска) на основе частоты встречаемости слов запроса в найденных документах и во всей коллекции в целом. Для обеспечения высокой скорости поиска по коллекции документов предварительно созда-

Пример иерархического рубрикатора

Рис. 3.15. Пример иерархического рубрикатора

ется индекс, в котором для каждого слова устанавливаются ссылки на все документы, где это слово встречалось. Дополнительно в индексе хранится информация о положении слова в документе, частоте встречаемости и т.п.

  • 2. Тематический поиск. Традиционные средства контекстного поиска по вхождению слов в документ зачастую не обеспечивают адекватного выбора информации по запросу пользователя. Основная проблема заключается в сложности точной формулировки запроса — подбора ключевых слов, которые предстоит искать в телах документов. Проблему снимает тематический поиск, позволяющий находить темы, связанные в тексте по смыслу с запросом, а также искать документы по темам. Для определения тем документов и их взаимосвязей используются технологии автоматического анализа текста. Тематический поиск более точен по сравнению с контекстным поиском, поскольку отбирает документы по теме, а не по словам, не гарантирующим принадлежность к теме.
  • 3. Нечеткий поиск. Часто поиск документов проводится в условиях неясного представления о правильном написании критерия отбора. В этом случае работают алгоритмы нечеткого поиска (рис. 3.16).
Иллюстрация нечеткого поиска

Рис. 3.16. Иллюстрация нечеткого поиска

Пользователь должен дополнить запрос близкими по написанию словами. Например, запрос «ИнвестГеоПроект» можно дополнить словами: «Инвест проект», «Инвест ГЕО», «Инвест-гео-проект». В ИС, поддерживающей нечеткий поиск, создается отдельный индекс, содержащий фрагменты слов со ссылками на слова, в которых эти фрагменты встретились. Поэтому при поиске находятся слова, фрагменты которых совпадают с фрагментами слова в запросе. Задавая длину фрагментов и их количество в слове, можно регулировать полноту поиска — отбирать слова по степени близости к запросу [36].

4. Поиск по подобию. Поиск по подобию позволяет отобрать документы, содержательно близкие. Для анализа близости чаще всего строится семантическая (смысловая) структура коллекции документов. При этом используются средства автоматического анализа текста и нейросетевых алгоритмов (см. 3.7), в частности алгоритмов классификации на основе самоорганизующихся тематических карт, тематических сетей и пр. Рассмотрим пример тематической карты.

Тематическая карта разбита на ряд шестиугольных областей, каждой из которых соответствует множество близких по содержанию документов — тематический класс. При этом близким областям обычно соответствуют близкие классы документов, что является основной особенностью карты. Яркость области пропорциональна количеству отнесенных к ней документов. Встречающиеся на карте названия отражают основные темы документов в соответствующих областях (рис. 3.17). Для получения подробной информации об интересующей области достаточно щелкнуть мышью по шестиугольнику карты.

Фрагмент тематической карты

Рис. 3.17. Фрагмент тематической карты

Рядом с картой отображается список основных тем документов выбранной области, щелчок по выбранной области раскрывает список всех документов темы с автоматически построенными рефератами. Просмотренные области карты помечаются голубым цветом, что позволяет наглядно изобразить тематический состав большой коллекции документов в целом (десятки тысяч текстов) и помочь сориентироваться в большом объеме информации.

Для обработки текстов на естественном языке используются различные словари, тезаурусы и онтологии предметной области системы. Системные словари представляют собой словари общеязыковой лексики и лексики предметной области. Тезаурусы — это особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы и т.п.) между лексическими единицами. В отличие от толкового словаря, тезаурус позволяет выявить смысл не только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться в системах искусственного интеллекта. Тезаурусы создаются ручным и автоматизированным способами. Онтологии содержат основные понятия предметной области и семантические (смысловые) связи между ними. Существуют общие онтологии (для представления понятий, общих для большого числа областей) и специализированные (предметно ориентированные) онтологии. Для создания онтологий используются специальные языки описания онтологий.

Программные средства для разработки систем текстового поиска представлены разнообразными библиотеками анализа русского текста и выделения в них различных сущностей, автоматической классификации и построения иерархических рубрикаторов. Разработанные программные модули встраиваются в информационно-поисковые системы (например, продукты RCO компании «Гарант-Парк-Интернет»).

 
Посмотреть оригинал
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы