Виды модели информационного поиска

Булевый поиск

Булевая модель информационного поиска получила широкую популярность в середине девяностых годов прошлого века. Главной причиной этого, с одной стороны, является то, что данная модель является достаточно простой и интуитивно понятной, а с другой - то, что в те времена еще не были разработаны альтернативные подходы.

Булевая модель основана на теории множества и булевой алгебре. Запросы данной модели формируются как булевые выражения. Поисковый алгоритм в булевой модели основан на бинарном критерии решения, который заключается в том, что документы могут быть только либо релевантными, либо нерелевантными заданному запросу.

В булевой модели поиска документ представляется в виде бинарного вектора терминов, определяющего принадлежность терминов искомым документам. Запрос представляет собой список ключевых слов (терминов), объединенных булевыми операторами (И, ИЛИ и НЕ (л, V, 0)). Например: q = («машина» или «автомобиль») и («праздник» или «отпуск»)

Для описания сложных запросов требуется использовать скобки для группировки операций. Например: в запросе л Ъ v с] требуется уточнить порядок выполнения операций: [(а л b) х с] или л (Ь х с)]. В данной моде-ли существует небольшая семантическая путаница между операторами «И» и «ИЛИ». На естественном языке выражение «А и Б» обычно ссылается на большее количество предметов, чем только А или Б отдельно, однако в булевой логике этот выражение ссылается на меньшее количество предметов [49].

Булевое выражение может быть представлено как объединение (операция V) набора операции пересечения (операция л). Например, запрос рал (Ь х «-с) может быть представлен в виде

q = Л Ъ) V Л -с).

Модель векторного пространства

Модель векторного пространства основывается на платформе, в которой допускается частичная релевантность между документами и запросами. Это достигается путем присваивания весовых коэффициентов для терминов запроса и документа. Такие весовые коэффициенты затем используются для вычисления степени близости между каждым документом и запросом. После этого модель векторного пространства упорядочивает документы по степени их соответствия терминам запроса (по степени их близости). В результате такой операции сортировки получается упорядоченное множество документов, которое считается более точным (с точки зрения удовлетворения информационной потребности пользователя) по сравнению с результатами модели буле- вого поиска.

Пусть d - это документ, a q - запрос, которые состоят из последовательностей терминов. В модели векторного пространства документ d и запрос q представляются в виде векторов весовых коэффициентов, записываемых следующим образом:

где d - векторное представление документа d, п q - векторное представление запроса q.

Значение Сйа (Ц) - весовой коэффициента г-го термина словаря индекса в документе d и соответственно 0)q(ti) - весовой коэффициента г-го термина словаря индекса в запросе

Близость между документом d и запросом q определяется как значение

- »-»корреляции между векторами d и q . Данное значение корреляции может быть вычислено как косинус угла между двумя векторами:

Так KaKA(/j) > О и <2 л(/г) > 0, то значение величины sim(q, d) находится

в интервале от 0 до 1. Следовательно, вместо определения релевантности документов запросу в модели векторного пространства выполняется ранжирование этих документов в соответствии с оценками их близости запросу. Искомые документы могут получены даже в том случае, если они соответствуют запросу только частично.

Модель векторного пространства не определяет метод вычисления значения элементов векторов. Однако метод вычисления весовых коэффициентов терминов является ключевым элементом для обеспечения эффективного вычисления близости и ранжирования. Одним из наиболее часто используемых методов является метод tf.idf {term frequency .Inverse document frequency).

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >