Вычисление весовых коэффициентов по методу tf.idf

По методу tf.idf весовой коэффициент термина /, в документе dj вычисляется следующим образом:

где N - количество документов коллекции; п, - количество документов, в которых встречается термин /,;freqdftA - частота термина Ц в документе d/max(freqdj(tx)) - максимальная частота терминов в документе d/,

Частота термина определяет важность термина tj для описания документа dj. Фактор обратной частоты документа idfftj) определяет важность факта встречаемости термина tf для отличия документа dj от остальных документов коллекции. Основная идея этой оценки заключается в том, что термины, которые встречаются в большом количестве документов, менее полезны для отличия релевантных документов от нерелевантных.

Вероятностная модель

Существует несколько возможных вероятностных моделей поиска. В этом разделе излагается наиболее известная из них - бинарная модель независимости.

Бинарная модель независимости {Binary Independence Model- BIM) основана на некоторых достаточно простых предположениях, позволяющих на практике оценить вероятность P(R = 1 d, q) - вероятность того, что документ d является релевантным запросу q. Слово «бинарная» в названии модели эквивалентно термину «булевая». Документы и запросы представляются в виде бинарных векторов встречаемости терминов, которые кодируют, какие термины индекса встречаются в документах или запросах. Слово «независимость» в названии модели означает то, что в соответствии с предположениями модели термины встречаются в документе независимо друг от друга. Модель не учитывает ассоциаций между терминами. Это предположение далеко от истины, тем не менее часто на практике оно позволяет получить удовлетворительные результаты.

Близость между запросом q и документом d определяется как отношение между вероятностью того, что документ d будет релевантно ным, и вероятностью того, что документ d будет нерелевантным для заданного запроса q.

Пусть P(R = llvrf) - вероятность того, что документ d будет релевантным, и P(R = 01 v,/) - вероятность того, что документ d будет нерелевантным запросу q. Тогда с использованием байесовской теоремы оценка близости доку- мента d запросу q может быть вычислена следующим образом

где P(R = 1) и P(R = 0) - априорная вероятность событий релевантности и нерелевантности, P{vJR = 1) и P{vdR- 0)- вероятность наблюдения Vd при условии, что произошло событие R и известны его вероятности как в случае, если событие R произойдет, так и в случае, если событие R не произойдет.

Целью системы поиска является ранжирование документов по убыванию вероятности того, что документы будут релевантными заданному запросу (принцип ранжирования вероятности probability ranking principle - PRP). Для выполнения ранжирования документов не требуется вычислять реальные значения вероятностей. Так как для заданного запроса q значения P(R= 1) и P(R = 0) одинаковы для всех документов коллекции, то формула вычисления близости может быть упрощена до следующего вида:

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >