Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информационные технологии в государственном и муниципальном управлении
Посмотреть оригинал

Перспективные разработки в области текстового поиска

Развитию технологий текстового поиска способствовали результаты во многих областях информатики, в том числе разработке и производстве высокопроизводительных средств вычислительной техники, развитие технологий Интернет, в том числе Web-технологий, успехи в области искусственного интеллекта. Стало возможным автоматизированное выполнение операций по обработке текстов, таких, как реферирование и рубрицирование документов, выполнение нечеткого поиска, поиска по подобию и пр.

Автоматическое реферирование документов.

С 1970-х гг. результаты в области разработки систем искусственного интеллекта способствовали бурному развитию теории компьютерной лингвистики, в том числе теории автоматического реферирования и индексирования текстовых документов. Реферат понимается как аннотация, резюме. Средства автоматического реферирования позволяют выделить наиболее информативные фрагменты текста либо синтезировать реферат на естественном языке в форме простых предложений, отражающих ключевые отношения между ключевыми понятиями. Существуют два подхода к решению задачи автоматического составления реферата:

1. Программа извлекает из первоисточника небольшое количество

фрагментов, наиболее полно представляющих содержание документа (предложения, содержащие термы запроса, фрагменты предложений, в более развитых системах — предложения, прямо содержащие ключевые темы документа).

2. Программа составляет краткое содержание документа. Реферат, сформированный таким образом, качественно лучше.

Системы, обеспечивающие автоматическое реферирование текстов, наибольшее применение находят в исследовательских проектах, так как в определенной мере решают проблему эффективного извлечения знаний из первоисточников информации. Примером может служить система «Аналитический курьер», в которой аннотация документа автоматически формируется из его фрагментов, а ее объем зависит от главных тем документа и настроек.

Автоматическое рубрицирование документов позволяет создавать иерархические рубрикаторы на основании анализа коллекций документов и классифицировать документы по рубрикам. Технология автоматического рубрицирования используется при наличии сложившейся иерархии понятий в прикладной области. Для построения рубрикатора используются методы распознавания образов применительно к текстам, методы статистического, в том числе кластерного анализа. Системными механизмами составляется и используется семантическая карта взаимосвязей тем документов. Документы близкого содержания, имеющие общие темы, объединяются в рубрики, строится дерево. Узлу дерева соответствует множество документов, которые имеют темы, указанные в названии рубрики. Документы, находящиеся в подрубриках дерева, содержат темы из более высоких рубрик (рис. 3.15).

Получаемые результаты могут служить основой для построения более строгих классификаторов после предварительной корректировки экспертом, или же сразу использоваться в готовом виде, например в качестве электронного глоссария. Рубрикатор, сформированный на базе эталонных текстов, может использоваться для автоматической классификации новых документов.

 
Посмотреть оригинал
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы