Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные технологии в государственном и муниципальном управлении
Посмотреть оригинал

Модели поиска

Технология поиска определяется моделью поиска.

Модель поиска — совокупность способов формирования представлений документов, формирования представлений поисковых запросов и вида критерия релевантности документов.

Простейшие модели поиска .модели, в которых документ представляется в виде набора ассоциированных с ним внешних атрибутов. К ним относятся:

  • • модель дескрипторного поиска. Индексирование документа реализуется назначением для него совокупности дескрипторов;
  • • модель, основанная на Дублинском ядре. Документ представляется в виде совокупности 18 атрибутов;
  • • модель, основанная на классификаторах. Документ представляется в виде совокупности идентификаторов классов, к которым относится данный документ. Классы формируют иерархическую структуру классификатора.

Булевские модели поиска модели, позволяющие пользователю формулировать запрос с использованием операторов И, ИЛИ, НЕТ, соединяющих несколько понятий (термов) в виде булевского выражения. Булева логика используется, когда поисковый запрос содержит более одного понятия. Понятия выражаются термами.

Термы текста — слова или словосочетания, принадлежащие словарю системы, который представляет общеязыковую лексику или лексику предметной области.

Для обработки такого запроса используется Булева логика. Операция: И (AND) требует наличия всех термов, в результате уменьшает число найденных документов, ИЛИ (OR) — наличия в документе хотя бы одного терма, в результате увеличивает число документов, НЕ (NOT) — отсутствия терма, в результате уменьшает число найденных документов. Термы запроса зависят от конкретного варианта модели поиска. В булевской модели, ориентированной на поиск «по тексту», термами будут слова; соответственно критерием релевантности будет условие вхождения некоторого слова (словосочетания) в текст документа. В булевской модели, ориентированной на поиск по классификаторам, термами выражения будут идентификаторы классов классификатора. В булевской модели поиска с использованием Дублинского ядра термом будет значение элементов метаданных.

Векторные модели поиска основаны на представлении документов и запросов в виде векторов. Каждому терму в документе и запросе ставится в соответствие некоторый вес. Таким образом, каждый документ и запрос может быть представлен в виде ^-мерного вектора [5]. Близость документа к запросу оценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена, например, как скалярное произведение соответствующих векторов описаний [17]. Существуют различные подходы к выбору указанных весов. Один из самых простых — использование частоты встречаемости данного терма в документе.

В настоящее время векторные модели являются самыми распространенными и применяемыми на практике моделями поиска. Векторные модели, в отличие от булевских, без труда позволяют ранжировать результирующее множество документов запроса. Векторная модель эффективно работает в поисковых системах сети Интернет. Использование векторных моделей требует значительно больших вычислительных ресурсов по сравнению с другими моделями, однако они обеспечивают существенно более высокое качество поиска.

 
Посмотреть оригинал
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы