Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные технологии в государственном и муниципальном управлении
Посмотреть оригинал

Представления документов.

Для построения представлений документов используются разные технологии. Представление создается, как правило, один раз при вводе документа в систему. От способа создания представления документа зависит эффективность поиска документа [37].

На ранних стадиях развития технологий обработки текстов использовалось простейшее представление документов, обеспечивающее тем не менее и по сей день высокое качество поиска. Формировалась совокупность слов (словосочетаний) лексики предметной области системы, характеризующая содержание данного документа, называемая дескриптором. Дескрипторы могут создаваться вручную авторами документов, экспертами в предметной области, подготавливающими документ к вводу в систему, или автоматически системными механизмами на основе анализа текста документа.

Дескриптор — слово (словосочетание), отражающее какое-либо понятие предметной области и используемое для характеристики смыслового содержания хранимых в системе документов и информационных запросов пользователей.

Примером дескрипторов в предметной области менеджмента могут являться слова УПРАВЛЕНИЕ, РЕШЕНИЕ, АДМИНИСТРАЦИЯ МУНИЦИПАЛЬНОГО ОБРАЗОВАНИЯ, ЖИЛОЙ ФОНД и пр.

Дескрипторы составили основу дескрипторных информационнопоисковых систем (см. 3.2.4).

Более информативными и технологичными представителями документов являются индексы.

Индекс — вспомогательная структура данных, служащая для повышения производительности при выполнении операций поиска данных.

Индекс позволяет эффективным образом (без полного просмотра текстов документов и без полного их перебора) обнаруживать в коллекциях документ или документы и при необходимости осуществлять быстрый доступ к ним. Индексы хранятся в специальных индексных файлах. Индексирование — процедура снабжения документа, вводимого в документальную систему, ключевыми словами, рубриками и другими атрибутами, позволяющими впоследствии осуществлять его быстрый поиск. Индексирование осуществляется ручным, чаще автоматизированным, способом при вводе документов в систему. В большинстве систем реализуется стратегия свободного индексирования, когда каждое, за исключением стоп-слов, слово загружаемого в БД документа может использоваться в качестве индекса — ключа поиска этого документа. Стоп-слова — это неинформативные слова (предлоги, союзы и т.п.), которые встречаются в любом документе. Разработано и используется несколько технологий индексирования, в том числе технологии атрибутного и полнотекстового индексирования [1]:

Атрибутное индексирование — это индексирование по ключевым словам. В простейшем случае атрибутами могут служить название и (или) имя автора документа. Получил распространение стандарт на атрибутное индексирование документов — Дублинское ядро [37]. Дублинское ядро — это набор атрибутов, характеризующих документ: название ресурса, владелец, тема, служба, обеспечивающая доступ к ресурсу, дата создания или предоставления доступа к ресурсу и т.д. Текущая версия Дублинского ядра принята в качестве стандарта в 1999 г. и включает в себя 15 элементов метаданных. Дублинское ядро используется для представления как документов, так и пользовательских запросов. Привлекательность подхода связана с его простотой, что, однако, оборачивается ограниченностью возможностей.

Полнотекстовое индексирование состоит в преобразовании текста документа в набор слов. Полнотекстовое индексирование проводится автоматически, и в этом его преимущество. Однако существенным недостатком является большое количество «мусора» в индексе, т.е. слов, никак не характеризующих документ, а просто связывающих ключевые слова, ведь, по сути, полнотекстовый индекс — это текст документа без стоп-слов. Индекс обычно составляет 200—400% объема исходного текста, что означает увеличение времени поиска и ресурсов компьютера. С 1990-х гг. для индексации и поиска документов стали использовать технологии нейронных сетей и искусственного интеллекта, что позволило сократить ошибки распознавания текста и расширить возможности автоматического индексирования. Индексы формируются и поддерживаются для каждой коллекции документов, актуализируются при пополнении коллекции или при исключении документов из коллекции. При индексировании документов используются дескрипторы, тезаурусы и грамматика естественного языка. В списке дескрипторов выделяются те, которые рекомендованы для индексирования. Тезаурусы это своего рода толковые дескриптор- ные словари, составляемые в настоящее время в автоматическом режиме организациями — разработчиками информационно-поисковых систем в какой-либо предметной области, например тезаурусы ИНИОН, ВИНИТИ, INSPEC.

Общие принципы текстового поиска.

Для систем текстового поиска независимо от применяемых технологий представления документов существуют общие принципы поиска:

  • • при вводе документа в систему строится его представление, которое далее выступает заместителем документа при обработке пользовательских запросов и называется «поисковый образ документа»;
  • • при поступлении в систему пользовательского запроса для него также строится представление — поисковый образ запроса;
  • • при запуске процедуры поиска представления запроса сопоставляются с представлениями документов по принятому в системе критерию близости. Поскольку при построении представлений документов и представлений запросов используется одна и та же технология, сопоставление возможно. Результаты обработки запроса представляются в виде множества найденных релевантных документов (результирующего множества документов).

Поисковый образ документа — текст, выражающий основное смысловое содержание документа и используемый при поиске в документальных системах.

Релевантные документы — документы, соответствующие пользовательскому запросу в документальной системе.

 
Посмотреть оригинал
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы