Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.

Презентация:



Advertisements
Похожие презентации
Тема: Компрессия текста Орындаған: Нұрбергенова Айгүл Био-15-1 Тексерген: Калабергенова.А.К.
Advertisements

Выпускная работа « Основы информационных технологий » Тема : « Структурно - семантические параметры художественной синонимии как составляющие идиостиля.
Умения и микроумения. Умение выделять главное Действия, составляющие умение выделять главное в тексте: постановка задачи для работы с текстом; выделение.
Синтаксис
Формы организации исследовательской работы с учащимися.
1 Тема урока: «Алфавитный подход к определению количества информации.» « Дорогу осилит идущий, а информатику – мыслящий. » Гюстав Гийома.
Двоичное кодирование текстовой информации Информация и информационные процессы.
Федеральное государственное бюджетное образовательное учреждение высшего образования «Омский государственный технический университет» Кафедра «Прикладная.
«Основы системологии» Назовите системы, которые вы знаете.
Тема урока Язык и информация. Алфавит, буква, слово в языке. Кодирование.
Информация Её виды и свойства вещества Все многообразие материальных объектов состоит из вещества энергией Все материальные объекты взаимодействуют.
Двоичное кодирование текстовой информации Информация и информационные процессы Скачать конспект к данной презентации Qo.do.aM - >>>мир предметника
Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой.
Стандарт IDEF1X Рассмотрим методологию IDEF1X. Методология IDEF1X представляет собой формализованный язык семантического (контекстного) моделирования данных,
ТЕМА УРОКА: ТЕКСТ И ЕГО СТРУКТУРА. «Заблудившееся предложение»
1 Как измерить информацию? Вопрос: «Как измерить информацию?» очень непростой. Ответ на него зависит от того, что понимать под информацией. Но поскольку.
Приемы смыслового свертывания текста 1) Основные приемы свертывания текста 2) Методика представления текста в виде графа 3) Основы конспектирования и реферирования.
Дуйсехан Д Жарылгап А. Реферат-резюме – это краткое изложение информации на основе одного источника. Главное условие этого вида работы – отсутствие субъективных.
Речевая коммуникация. Команда: Легион. Цель: Изуение литературы по теме.
Текст учебника как средство достижения предметных, метапредметных и личностных результатов.
Транксрипт:

Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных смысловых единиц реферата выступают ключевые предложения или ключевые словосочетания и слова исходного текста.

Первые в их последовательной совокупности (в том порядке, в котором они идут в исходном тексте) образуют текст (квазитекст) реферата. Второй тип смысловых единиц (ключевые словосочетания и слова) используется компьютером для построения так называемых табличных рефератов.

При составлении с помощью компьютера аннотации также используются как ключевые предложения (в том виде, что и при составлении реферата), так и ключевые слова и словосочетания. Последние перечисляются вслед за реляторами вида: «В статье рассматриваются следующие вопросы:...», «Книга посвящена следующим проблемам:...», «Статья раскрывает следующие понятия:...» и т.д.

По способам выделения из исходных текстов ключевых словосочетаний и предложений (первые два «умения» компьютера) различают несколько методов автоматического реферирования и аннотирования текстов. Наиболее известны следующие три группы методов статистические логико-семантические позиционные

Суть статистической группы методов заключается в том, что ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз ключевым предложением считается предложение текста, которое имеет несколько ключевых слов содержит ключевые слова на небольшом расстоянии друг от друга

Принадлежность слова, словосочетания или предложения к числу ключевых определяется специальными статистическими коэффициентами.

В позиционных методах автоматического реферирования и аннотирования ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Такие предложения, как правило, содержат информацию о целях, методах, выводах и результатах исследования, описанного в первичном документе. Важность тех или иных предложений с указанной точки зрения определяется экспертами путем изучения семантической структуры первичных документов определенного типа.

Логико-семантические методы опираются на исследование структуры и семантики текстов. Существует несколько вариантов этих методов, но цель их одна выделить из конкретного текста предложения с наибольшим функциональным весом. Величина эта зависит от многих факторов: наличия в исследуемом предложении специальных семантически значимых слов, связи этого предложения с другими предложениями текста, синтаксического типа самого предложения и т.д.

Формулируя задачу построения системы автоматического аннотирования и реферирования текста, необходимо четко указать метод, который используется для выделения ключевых слов предложения способ определения ключевых словосочетаний предложения критерий выделения ключевых предложений текста тип подготавливаемой аннотации: текстовая, в виде релятора с последующими ключевыми словами и словосочетаниями, или табличная тип формируемого реферата: текстовый или табличный

Учитывая все сказанное, сформулируем задачу автоматического реферирования и аннотирования текста следующим образом

На устройстве внешней памяти (например, дискете или винчестере) находится английский научно-технический текст. Начало каждого абзаца в нем обозначено знаком*. Используя для выделения ключевых (опорных) слов текста один из вариантов статистического метода, а именно коэффициент важности слова В формуле для К важ буквы означают следующее: F частота словоупотреблений в тексте; т число абзацев текста, в которых встретилось слово; N общее число словоупотреблений в тексте; п общее число абзацев в тексте.

Это позволяет получить