Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные технологии в государственном и муниципальном управлении
Посмотреть оригинал

Технологии текстового поиска

Технологии обработки текстовой информации играют большую роль в жизни общества и в деятельности любой организации (предприятия), поскольку основная часть информационных массивов представлена документами на естественных языках. Активному развитию технологий обработки текстовой информации в большой степени способствовало оснащение ЭВМ мониторами. Помимо задачи хранения текстовой информации для пользователя крайне важна задача эффективного поиска документов, удовлетворяющих его запросу. С начала 1960-х гг. начали разрабатываться технологии текстового поиска и информационно-поисковые системы, поддерживающие их [16, 29].

Технологии текстового поиска основаны на тематическом анализе текста и анализе смысловых связей и обеспечиваются средствами лингвистического и программного обеспечения.

Основные понятия

Задача хранения и обработки текстовых данных, в отличие от задач хранения и обработки фактографических данных, имеет свои особенности:

• системы текстового поиска, как правило, хранят несколько коллекций документов (информационно-поисковых массивов);

  • • тексты документов, как правило, имеют большой объем;
  • • текстовые данные можно характеризовать как неструктурированные или слабоструктурированные;
  • • смысловое сопоставление содержания документов и выраженных на естественном языке пользовательских запросов является довольно трудной задачей.

В силу этих особенностей система текстового поиска не способна при выполнении пользовательских запросов анализировать полные тексты документов. Поэтому был предложен и реализован подход, состоящий в том, чтобы в процессе обработки пользовательского запроса работать не с самими документами, а с некоторыми структурированными представлениями их содержания, которые называют представлениями документов (представители документа). В качестве таких представителей выступают дескрипторы, индексы, поисковые образы документов и запросов и т.д. Использование представления документа вместо непосредственно самого документа позволяет избежать трудоемкого процесса просмотра и анализа полного его содержания на стадии поиска и вместе с тем использовать преимущества структурированного представления для повышения эффективности поиска.

 
Посмотреть оригинал
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы