АВТОМАТИЧЕСКОЕ РАЗБИЕНИЕ ТЕКСТА НА ПРЕДЛОЖЕНИЯ ДЛЯ РУССКОГО ЯЗЫКА Ольга Урюпина (uryupina@gmail.com)uryupina@gmail.com Институт Языкознания РАН, Ашманов.

Презентация:



Advertisements
Похожие презентации
Памятки Русский язык 2 класс. Признаки предложения 1.Предложение состоит из слов. 2.Предложение выражает законченную мысль. 3.Первое слово в предложении.
Advertisements

Тема урока: Редактирование текста Информатика 5 класс.
Автоматизация процесса построения и пополнения двуязычных специализированных словарей Липатов Антон Александрович Мальцев Андрей Анатольевич Шило Виктор.
«Основные элементы текста. Настройки окна документа. Форматирование абзаца» Тема:
Основные знаки препинания. Знак препинания, стоящий в конце вопросительного предложения. 1 ВОПРОСИТЕЛЬНЫЙ ?
Работа ШМО учителей русского языка и литературы МОУ «СОШ 12» по подготовке учащихся к ЕГЭ и ГИА учебный год. Коякова Т. А., учитель русского.
Функции знаков препинания «Знаки препинания служат нотами при чтении» (А.П. Чехов)
Заголовок Меню Рабочая область Панель инструментов Строка состояния.
Выполнил: Пантюков Е. А.. Главы должны иметь заголовки. Заголовки должны четко и кратко отражать содержание пунктов (параграфов). Названия глав, разделов.
Язык разметки гипертекста HTML Урок 1 © Николаева Вера Александровна, 2007
Модуль Методы решений уравнений содержащих модуль.
9 класс. Выполнение задания С2.1 (сочинение-рассуждение на лингвистическую тему) Зачем нужна пунктуация?
ВВОД РЕДАКТИРОВАНИЕ ФОРМАТИРОВАНИЕ Основные правила ввода текста Переход на другую строку внутри абзаца происходит автоматически. Окончание абзаца –
Готовимся к ЕГЭ Презентацию подготовила учитель русского языка и литературы Свечаревская С.А.
Ученическая презентация Зачем нужна пунктуация?. Авторы работы: 1. Аверкина Анастасия 2. Евтеева Анна 3. Крысанов Андрей 4. Никишин Дмитрий 5. Юдина Яна.
Урок русского языка 11 класс Заварухина Галина Анатольевна, учитель русского языка и литературы МБОУ СОШ 2.
Методическая разработка по русскому языку (9 класс) по теме: Пишем сочинение ГИА-9 (Синтаксис)
Тема урока:. Можете ли вы полностью ответить на следующие вопросы: Знаете ли вы, что такое текст? Из каких основных объектов он состоит? Работали ли вы.
« Коварные знаки препинания » Элективный курс. Комбинированные знаки препинания.
9 класс. Выполнение задания С2.1 (сочинение-рассуждение на лингвистическую тему) Зачем нужна пунктуация? Подготовила: Калинина С.В.,учитель русского языка.
Транксрипт:

АВТОМАТИЧЕСКОЕ РАЗБИЕНИЕ ТЕКСТА НА ПРЕДЛОЖЕНИЯ ДЛЯ РУССКОГО ЯЗЫКА Ольга Урюпина Институт Языкознания РАН, Ашманов и Партнеры

Вкратце Зачем и почему Примеры Признаки Эксперименты

Вкратце Зачем и почему Примеры Признаки Эксперименты

Автоматическая обработка текста синтаксический анализ (парсеры) системы автоматического реферирования машинный перевод экспертные системы... Текст, разбитый на предложения

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Наивная сегментация км), второй интервал синтаксический анализ (парсеры) системы автоматического реферирования машинный перевод экспертные системы...

Практические решения Эвристики: Предложение должно содержать буквы Предложение должно начинаться с заглавной буквы Сокращения (из списка) требуют «особого внимания»...

Проблемы Сложно адаптировать к новым данным Сложно адаптировать к новым задачам Сложно оценить роль отдельных факторов

Вкратце Зачем и почему Примеры Признаки Эксперименты

Точка URL: даты, время: сокращения: тыс. руб. сокращения в конце предложения опечатки:Михаил. Бычков многоточия:эээ форматирование:Введение Данные

Вопросительный и восклицательный знаки комментарии:(правда?) - о ужас! – комбинации знаков:да ну?! xxx: ?????? URL: geocode=&q=bekasovo&sll= , &sspn= , &ie=U TF8&z=15&iwloc=addr кодировка:?Локомотив?

Скобки и кавычки.) и ). не по правилам «»,,,,

Вкратце Зачем и почему Примеры Признаки Эксперименты

Контексты знак препинания слово слева слово справа «настоящее» слово справа

В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).

Контексты знак препинания. слово слева700 слово справа. «настоящее» слово справа1050

Признаки сокращения «тип» слова начало и конец абзаца расстояния до потенциальных границ

Сокращения Извлечены автоматически из НКРЯ: слово. слово_со_строчной (дополнительно: по разметке)

Вектор признаков знак препинания. слово слева700 слово справа. «настоящее» слово справа1050 расстояние1 6 расстояние2 1 сокращение справанет сокращение слеванет тип слова слевацифры тип слова справапунктуация тип «настоящего» слова справацифры начало абзацанет конец абзацанет

Вектор признаков знак препинания. слово слева700 слово справа. «настоящее» слово справа1050 расстояние1 6 расстояние2 1 сокращение справанет сокращение слеванет тип слова слевацифры тип слова справапунктуация тип «настоящего» слова справацифры начало абзацанет конец абзацанет

Вкратце Зачем и почему Примеры Признаки Эксперименты

Данные НКРЯ, 33 документа: политика, культура ремонт локомотивов Ручная разметка

Данные - статистика предложений1639 предложений с.?!1414 контекстов5230(= ) контекстов с.?!2048

Контрольные эвристики termpunct: Предложение должно заканчиваться «.», «?», или «!». termpunct_cap: +Предложение должно начинаться с заглавной буквы. advanced: + Предложение не должно заканчиваться сокращением и «.».

Результаты-1 точностьполнота termpunct67.2**100 termpunct_cap90.7**97.0 advanced C **98.5 Ripper98.5**98.5 SVM**99.6**98.5

Результаты-2 точностьполнота termpunct66.9**98.9 termpunct_cap89.6**96.0 Advanced C4.5*98.5**97.5 Ripper**98.9**96.0 SVM**99.6**97.5

Пример Был на церемонии момент, когда прозвучала пронзительно высокая и чистая нота. " Ника " за " Честь и Достоинство "-- вот так, всё с заглавной буквы -- вручалась Петру Ефимовичу Тодоровскому. Петру Тодоровскому -- оператору и режиссёру, композитору и музыканту, солдату и просто замечательному человеку. Он молодой, ошалевший от победной весны 45-го, смотрел на нас с экрана в хуциевском фильме " Был месяц май ". Он вышел на сцену под гром аплодисментов и " Рио-риту ". Для своих ровесников и друзей так и оставшийся в его - то годы Петей Тодоровским. Он прошёл через зал," по главной улице с оркестром ", держа в руках гитару. Спасибо вам, дорогой Петр Ефимович ! За веру, верность и " Верность ", за всё ваше кино, за то, что вы сделали для нас, за вашу нескончаемую любовь, за то, что вы есть. За то, что " и вcё-таки, и вcё-таки, и вcё-таки мы победили "! Той весной. За то, что у нас есть эта весна. И это ее семнадцатое мгновение.

Заключение статистический подход к задаче определения границ предложений в произвольном тексте на русском языке: легко адаптировать к новым данным и задачам высокая скорость высокая полнота и точность В будущем: лингвистическая экспертиза (сокращения) новые данные (кавычки)

Спасибо!