Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Емашова О.А. (olga.emashova@gmail.com), Мальковский М.Г.

Презентация:



Advertisements
Похожие презентации
Научный стиль. Определение научного стиля.. Что такое научный стиль? Научный стиль – разновидность книжных стилей литературного языка. Он применяется.
Advertisements

Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Федеральное государственное бюджетное образовательное учреждение высшего образования «Омский государственный технический университет» Кафедра «Прикладная.
Апо́фис (лат. Apophis) астероид, сближающийся с Землёй, открытый в 2004 году в обсерватории Китт-Пик в Аризоне. Предварительное название 2004 MN 4, имя.
Научный стиль
Автоматизация процесса построения и пополнения двуязычных специализированных словарей Липатов Антон Александрович Мальцев Андрей Анатольевич Шило Виктор.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Научный стиль. История научного стиля Возникновение научного стиля связано с развитием разных областей научного знания, разных сфер деятельности человека.
Научная письменная речь. Понятие о стилистике и стилях речи; Понятие о стилистике и стилях речи; Понятие о стилистике и стилях речи; Понятие о стилистике.
Основы стилистики. Стилистика - раздел языкознания, изучающий различные стили (стили языка, стили речи, жанровые стили, индивидуальный стиль автора и.
По каким особенностям выделяют стили речи? По каким особенностям выделяют стили речи? Какие стили русского языка вы знаете? Научный, официально – деловой,
Выпускная работа « Основы информационных технологий » Тема : « Структурно - семантические параметры художественной синонимии как составляющие идиостиля.
Научный стиль. Сфера употребления Научные доклады и лекции, выступления на научных конференциях и совещаниях являются образцами научного стиля речи. Также.
Научный стиль. Сфера употребления Научные доклады и лекции, выступления на научных конференциях и совещаниях являются образцами научного стиля речи. Также.
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
Текстообразующие функции производных имен прилагательных в романе Б.Окуджавы «Путешествие дилетантов» Магистерская диссертация магистрантки филологического.
1 Исследование алгоритмов решения задачи k коммивояжеров Научный руководитель, проф., д.т.н. Исполнитель, аспирант Ю.Л. Костюк М.С. Пожидаев Томский государственный.
Программная поддержка языка лексико-синтаксических шаблонов Носков А. А. Научный руководитель: Большакова Е.И. Московский Государственный Университет им.
Компьютерная лингвистика Отдел мультиагентных систем ИИПРУ КБНЦ РАН.
Технология описания педагогического опыта Подготовила: учитель начальных классов МОУ гимназии 44 имени В.Н.Деева Сенницкая Надежда Александровна.
Транксрипт:

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Емашова О.А. Мальковский М.Г. ( ) Московский Государственный Университет им. М.В. Ломоносова факультет Вычислительной Математики и Кибернетики

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Разрабатывается система автоматического реферирования текстов на русском языке. Методы общего назначения обрабатывают тексты по одному и тому же принципу. Однообразный подход не может обеспечить высоких результатов при реферировании широкого класса текстов. Выходом служит разбиение всего класса обрабатываемых текстов на несколько подклассов, внутри каждого из которых тексты обладают схожими свойствами. Как правило, в качестве параметра разбиения выбирается предметная область, для которой разрабатывается узкоспециальный алгоритм реферирования. Однако такие алгоритмы трудно поддаются модификации при смене предметной области. Функциональный стиль (ФС) текста является одним из эффективных параметров классификации текстов русского языка в задаче автоматического реферирования.

Тексты, относящиеся к разным функциональным стилям, обладают сходными характеристиками, учет которых позволяет точнее оценивать информативность слов и отрывков текста. Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Научный стиль (НС) Объективность, отвлеченность от конкретного в пользу закономерностей, логичность и последовательность изложения. Обилие терминов. Именной характер речи, десемантизация глаголов. Специфическая орга- низация текста. Информацион- ная насыщенность заголовков параграфов и всего текста. Официально-деловой стиль (ОДС) Четкость формулировок и однознач- ность толкования. Особое внимание к выбору слов на этапе написания исходного текста. Регулятивный, предписывающий характер речи. Рубрикация. Использование парал- лельных синтаксических конструк- ций, оформленных в виде нумеро- ванных списков. Отсутствие побоч- ной, необязательной информации. Реквизиты.

Тексты, относящиеся к разным функциональным стилям, обладают сходными характеристиками, учет которых позволяет точнее оценивать информативность слов и отрывков текста. Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Публицистический стиль Социально-оценочный и информационный характер речи. Использование широкого спектра выразительных языковых средств. Употребление устаревших слов, слов в переносном значении. Стремление к образности и эмоциональной насыщенности текста. Наиболее информационно значимыми частями речи в текстах являются глагол и имя существительное. Информационно-публицистические жанры (ИПЖ) Краткость. Характерная информационная загруженность первых предложений. Аналитико-публицистические жанры (АПЖ) Характерная для научного стиля организация текста.

Тексты, относящиеся к разным функциональным стилям, обладают сходными характеристиками, учет которых позволяет точнее оценивать информативность слов и отрывков текста. Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Художественный стиль (ХС) Разнообразные по объему, составу, форме, теме и жанру тексты. Опора на общие принципы организации текста в русском языке. Реферирование как цитирование большими отрывками. Наиболее информативными частями речи по умолчанию являются имя существительное и глагол. Общий случай Оценка общих характеристик текста. Предоставление пользователю выбо- ра способа реферирования.

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Для оценки важности предложений используется статистическая, морфологическая и стилистическая характеристики слов исходного текста. Вес слова вычисляется по формуле: где f i – частота появления слова i в исходном тексте, N – количество слов в тексте, Pos(w i ) – коэффициент информативности части речи (соответствующая координата вектора R_InfArr[3]), Kw(w i ) – коэффициент, отвечающий за принадлежность слова к ключевым и/или тематически важным словам.

Для каждого функционального стиля разрабатывается собственный подход к оценке и способу выборки отрывков текста в конечный реферат. Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Для НС и АПЖ: Inf_Sci(n, m) - начальные и конечные предложения каждого абзаца содержательно важнее, чем внутренние Для ИПЖ: Inf_News(n, m) - начальные предложения текста содержательно важнее, чем остальные Для ХС и ОДС: - нет зависимости важности предложения от его положения в тексте Для ХС и ПС: Inf_Arr[3] = {1.75 ; 1.5 ; 1.0 } - самыми информативными частями речи являются имя существительное и глагол Для НС: Inf_Arr[3] = { 1.75 ; 1.0 ; 1.5 } - самыми информативными частями речи являются имя существительное и имя прилагательное/причастие Для ОДС: - все неслужебные части речи одинаково важны

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста исходный текст предварительная обработка: перевод текста во внутреннее представление, морфологическая обработка текста, построение частотного словаря лексики, вычисление весов слов, предложений и параграфов в зависимости от ФС, выбор порогов сокращения в зависимости от характеристик текста и его ФС. удаление абзацев (для текстов ИПЖ этот этап пропускается) сокращение предложений с использованием модуля синтаксического анализа (для текстов ХС, ИПЖ и АПЖ этот этап пропускается) удаление предложений (для текстов ХС этот этап пропускается) завершающая обработка текста: обработка заголовков и реквизитов, перевод из внутреннего представления в обычный текст. конечный реферат

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Предложен подход, существенным образом учитывающий функциональный стиль реферируемого текста на русском языке. Выбраны и параметризованы пять функциональных групп. Разработаны методы реферирования, учитывающие относительную информа- тивность частей речи и распределение важности предложений внутри текста, характерные для каждой из выделенных групп текстов. Разработан общий алгоритм, настраиваемый на особенности кон- кретного текста и воплощающий разработанные методы рефери- рования документов разных функциональных групп. На основе предложенного алгоритма на языке С++ реализован программный продукт, позволяющий реферировать тексты на русском языке. Проведена проверка разработанного алгоритма автоматического реферирования на тестовом наборе текстов. Результаты

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста "Апофис" - стоит ли верить прогнозам астрономов? Российские астрономы не слишком верят в вероятность столкновения Земли с астероидом "Апофис " в 2029 году. Как сообщил в четверг на пресс-конференции старший научный сотрудник Главной астрономической обсерватории РАН Сергей Смирнов, малая планета "Апофис" приблизится к Земле в пятницу 13 апреля 2029 года на расстояние приблизительно астрономических единиц, что составляет примерно тыс. км. "Как известно, именно на этой высоте проходит геостационарные орбиты. Находящимся на них спутникам в случае встречи с вышеназванным астероидом грозит поломка, и обломки некоторых из них могут упасть на Землю", - сказал Смирнов. Между тем, по мнению астронома, астероид пройдет между Землей и Луной, "как маленькая щепка между большим кораблем и катером - не касаясь ни того, ни другого". Однако у населения России, хорошо знающего цену всевозможным прогнозам, особенно в области природных явлений, есть все основания проявлять если не беспокойство, то осторожность и предусмотрительность. Летящий со страшной скоростью огненный шар может повлечь самые серьезные последствия - достаточно найти на карте мира Мексиканский залив. Астероид, названный в честь древнеегипетского бога тьмы Апофиса, попал в поле зрения астрономов в июне 2004 года. Диаметр его составляет, по разным оценкам, от 400 до 600 метров, а скорость - более 30 километров в секунду. Реферат с коэффициентом 0.63 "Апофиc" - стоит ли верить прогнозам астрономов ? Российские астрономы не слишком верят в вероятность столкновения Земли с астероидом "Апофис-99942" в 2029 году. Как сообщил в четверг на пресс-конференции старший научный сотрудник Главной астрономической обсерватории РАН Сергей Смирнов, малая планета "Апофис" приблизится к Земле в пятницу 13 апреля 2029 года на расстояние приблизительно астрономических единиц, что составляет примерно тыс. км. Между тем, по мнению астронома, астероид пройдет между Землей и Луной, " как маленькая щепка между большим кораблем и катером - не касаясь ни того, ни другого ". Летящий со страшной скоростью огненный шар может повлечь самые серьезные последствия - достаточно найти на карте мира Мексиканский залив. Астероид, названный в честь древнеегипетского бога тьмы Апофиса, попал в поле зрения астрономов в июне 2004 года.

Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста Спасибо за внимание!