АВТОМАТИЧЕСКОЕ РАЗБИЕНИЕ ТЕКСТА НА ПРЕДЛОЖЕНИЯ ДЛЯ РУССКОГО ЯЗЫКА Ольга Урюпина Институт Языкознания РАН, Ашманов и Партнеры
Вкратце Зачем и почему Примеры Признаки Эксперименты
Вкратце Зачем и почему Примеры Признаки Эксперименты
Автоматическая обработка текста синтаксический анализ (парсеры) системы автоматического реферирования машинный перевод экспертные системы... Текст, разбитый на предложения
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Наивная сегментация км), второй интервал синтаксический анализ (парсеры) системы автоматического реферирования машинный перевод экспертные системы...
Практические решения Эвристики: Предложение должно содержать буквы Предложение должно начинаться с заглавной буквы Сокращения (из списка) требуют «особого внимания»...
Проблемы Сложно адаптировать к новым данным Сложно адаптировать к новым задачам Сложно оценить роль отдельных факторов
Вкратце Зачем и почему Примеры Признаки Эксперименты
Точка URL: даты, время: сокращения: тыс. руб. сокращения в конце предложения опечатки:Михаил. Бычков многоточия:эээ форматирование:Введение Данные
Вопросительный и восклицательный знаки комментарии:(правда?) - о ужас! – комбинации знаков:да ну?! xxx: ?????? URL: geocode=&q=bekasovo&sll= , &sspn= , &ie=U TF8&z=15&iwloc=addr кодировка:?Локомотив?
Скобки и кавычки.) и ). не по правилам «»,,,,
Вкратце Зачем и почему Примеры Признаки Эксперименты
Контексты знак препинания слово слева слово справа «настоящее» слово справа
В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
Контексты знак препинания. слово слева700 слово справа. «настоящее» слово справа1050
Признаки сокращения «тип» слова начало и конец абзаца расстояния до потенциальных границ
Сокращения Извлечены автоматически из НКРЯ: слово. слово_со_строчной (дополнительно: по разметке)
Вектор признаков знак препинания. слово слева700 слово справа. «настоящее» слово справа1050 расстояние1 6 расстояние2 1 сокращение справанет сокращение слеванет тип слова слевацифры тип слова справапунктуация тип «настоящего» слова справацифры начало абзацанет конец абзацанет
Вектор признаков знак препинания. слово слева700 слово справа. «настоящее» слово справа1050 расстояние1 6 расстояние2 1 сокращение справанет сокращение слеванет тип слова слевацифры тип слова справапунктуация тип «настоящего» слова справацифры начало абзацанет конец абзацанет
Вкратце Зачем и почему Примеры Признаки Эксперименты
Данные НКРЯ, 33 документа: политика, культура ремонт локомотивов Ручная разметка
Данные - статистика предложений1639 предложений с.?!1414 контекстов5230(= ) контекстов с.?!2048
Контрольные эвристики termpunct: Предложение должно заканчиваться «.», «?», или «!». termpunct_cap: +Предложение должно начинаться с заглавной буквы. advanced: + Предложение не должно заканчиваться сокращением и «.».
Результаты-1 точностьполнота termpunct67.2**100 termpunct_cap90.7**97.0 advanced C **98.5 Ripper98.5**98.5 SVM**99.6**98.5
Результаты-2 точностьполнота termpunct66.9**98.9 termpunct_cap89.6**96.0 Advanced C4.5*98.5**97.5 Ripper**98.9**96.0 SVM**99.6**97.5
Пример Был на церемонии момент, когда прозвучала пронзительно высокая и чистая нота. " Ника " за " Честь и Достоинство "-- вот так, всё с заглавной буквы -- вручалась Петру Ефимовичу Тодоровскому. Петру Тодоровскому -- оператору и режиссёру, композитору и музыканту, солдату и просто замечательному человеку. Он молодой, ошалевший от победной весны 45-го, смотрел на нас с экрана в хуциевском фильме " Был месяц май ". Он вышел на сцену под гром аплодисментов и " Рио-риту ". Для своих ровесников и друзей так и оставшийся в его - то годы Петей Тодоровским. Он прошёл через зал," по главной улице с оркестром ", держа в руках гитару. Спасибо вам, дорогой Петр Ефимович ! За веру, верность и " Верность ", за всё ваше кино, за то, что вы сделали для нас, за вашу нескончаемую любовь, за то, что вы есть. За то, что " и вcё-таки, и вcё-таки, и вcё-таки мы победили "! Той весной. За то, что у нас есть эта весна. И это ее семнадцатое мгновение.
Заключение статистический подход к задаче определения границ предложений в произвольном тексте на русском языке: легко адаптировать к новым данным и задачам высокая скорость высокая полнота и точность В будущем: лингвистическая экспертиза (сокращения) новые данные (кавычки)
Спасибо!