Карта сайта Обратная связь
ИТ-консалтинг Имитационное моделирование Компьютерные технологии Програмное обеспечение Антивирусные программы Защита информации История развития Internet
 
 



Переработка текстовой информации

20-11-2017

Переработка информации, представленной в виде текстов на естественном языке, имеет много аспектов. Сюда относятся такие виды информационных процессов, как понимание текстов, их перефразирование (пересказ, перевод на другой язык), сжатие семантической информации. Особенное значение имеет последний тип переработки; сюда относятся классификация и индексирование документов, аннотирование и реферирование их.

Структура сигнала измерительной информации передает и его значение. В текстовой информации это не всегда так. В силу специфики языка в форме сообщения, представленного в виде текста, не просматривается содержание, поэтому обработка текстов требует особых приемов, заключающихся в передаче смысла с помощью человека-интерпретатора либо с помощью различных искусственных методов.

Цель процедуры автоматизированного реферирования – выделить из текста документа наиболее важные положения, как можно более полно раскрывающие суть изложенного исследования. В качестве исходного материала для такого реферата служат предложения, составляющие текст документа. В результате отбора некоторых из них получается сокращенный вариант исходного документа, который не является рефератом в полном смысле этого слова. Этот сжатый таким образом текст принято называть квазирефератом.

Одна из первых систем автоматического квазиреферирования базировалась на предложении, что для каждого документа специфические слова, наиболее часто встречающиеся в нем, используются для передачи основной идеи, изложенной текстом. Разработчик этой системы Г. Лун пользовался следующей оценкой значимости каждого из предложений, составляющих документ: Vпр = Nзс2/Nc, где Vпр – значимость предложения; Nзс – число значимых слов в этом предложении, т.е. таких слов, которые являются специфическими для предметной области, к которой относится документ, и для самого этого документа; Nc – общее число слов в предложении. При такой методике квазиреферат составляет совокупность разрозненных фраз, так что понять смысл реферата можно только после дополнительной обработки полученного текста человеком.

Задача обработки связного текста и генерации таких текстов является довольно трудной, она слабо поддается формализации в полном объеме. Однако разработан ряд методик, позволяющих повысить связность текстов по сравнению с простым отбором наиболее значимых предложений. Одна из них заключается в том, что наиболее связанными считаются такие предложения, которые содержат наибольшее количество одних и тех же значимых слов.

Другая методика оценки семантической значимости предложений для отбора их в квазиреферат основана на определении количества информации, содержащейся в каждом из них. Для этого необходимо произвести частотный анализ текста с точки зрения встречаемости в нем важнейших терминов. По гипотезе автора этой методики В. Пурто, чем более важным является для некоторого текста тот или иной термин, тем чаще он встречается в нем. Поэтому для квазиреферата отбираются такие предложения, которые содержат наибольшее количество терминов, чаще всего повторяющихся в данном документе.

1 2

Интересно:
 Задачи обнаружения сигнала
 Маркетинговая информация
 Системы с открытым ключом
  Виды и свойства информации
 Информация аналоговая и цифровая

Добавить комментарий:

Введите ваше имя:

Комментарий:


Новости:•  Французы соединили мультиконтактный дисплей с 3D
Экран-стол, который демонстрирует трехмерное изображение объектов и позволяет взаимодействовать с ними, создали Жан-Баптист де ла Ривьер (Jean-Baptiste de la Rivière) и его коллеги из компании Immersion.

•  O чем опасно писать в Интернете
Скандал с блогером Олегом Шинкаренко, с которым СБУ провела воспитательную беседу, заставил задуматься — что можно писать в блоге.

•  В России решат судьбу связи 4G
Российская Государственная комиссия по радиочастотам (ГКРЧ) предложила выделить под сети четвертого поколения стандарта LTE частоты от 2,5 до 2,7 гигагерца. Указанный диапазон частот в настоящее время предоставлен под размещение сервисов цифрового телевидения формата MMDS. Частотный ресурс был выделен несколько лет назад региональным компаниям для запуска вещания, однако сейчас практически не используется ими.


Rambler's Top100