Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемwww.dialog-21.ru
1 АВТОМАТИЧЕСКОЕ РАЗБИЕНИЕ ТЕКСТА НА ПРЕДЛОЖЕНИЯ ДЛЯ РУССКОГО ЯЗЫКА Ольга Урюпина Институт Языкознания РАН, Ашманов и Партнеры
2 Вкратце Зачем и почему Примеры Признаки Эксперименты
3 Вкратце Зачем и почему Примеры Признаки Эксперименты
4 Автоматическая обработка текста синтаксический анализ (парсеры) системы автоматического реферирования машинный перевод экспертные системы... Текст, разбитый на предложения
5 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
6 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
7 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
8 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
9 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
10 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
11 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
12 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
13 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
14 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
15 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
16 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
17 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
18 Наивная сегментация В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
19 Наивная сегментация км), второй интервал синтаксический анализ (парсеры) системы автоматического реферирования машинный перевод экспертные системы...
20 Практические решения Эвристики: Предложение должно содержать буквы Предложение должно начинаться с заглавной буквы Сокращения (из списка) требуют «особого внимания»...
21 Проблемы Сложно адаптировать к новым данным Сложно адаптировать к новым задачам Сложно оценить роль отдельных факторов
22 Вкратце Зачем и почему Примеры Признаки Эксперименты
23 Точка URL: даты, время: сокращения: тыс. руб. сокращения в конце предложения опечатки:Михаил. Бычков многоточия:эээ форматирование:Введение Данные
24 Вопросительный и восклицательный знаки комментарии:(правда?) - о ужас! – комбинации знаков:да ну?! xxx: ?????? URL: geocode=&q=bekasovo&sll= , &sspn= , &ie=U TF8&z=15&iwloc=addr кодировка:?Локомотив?
25 Скобки и кавычки.) и ). не по правилам «»,,,,
26 Вкратце Зачем и почему Примеры Признаки Эксперименты
27 Контексты знак препинания слово слева слово справа «настоящее» слово справа
28 В связи с этим первый интервал пробегов был принят равным тыс. км (середина интервала тыс. км), второй интервал тыс. км (середина интервала тыс. км) и третий интервал тыс. км (середина интервала тыс. км).
29 Контексты знак препинания. слово слева700 слово справа. «настоящее» слово справа1050
30 Признаки сокращения «тип» слова начало и конец абзаца расстояния до потенциальных границ
31 Сокращения Извлечены автоматически из НКРЯ: слово. слово_со_строчной (дополнительно: по разметке)
32 Вектор признаков знак препинания. слово слева700 слово справа. «настоящее» слово справа1050 расстояние1 6 расстояние2 1 сокращение справанет сокращение слеванет тип слова слевацифры тип слова справапунктуация тип «настоящего» слова справацифры начало абзацанет конец абзацанет
33 Вектор признаков знак препинания. слово слева700 слово справа. «настоящее» слово справа1050 расстояние1 6 расстояние2 1 сокращение справанет сокращение слеванет тип слова слевацифры тип слова справапунктуация тип «настоящего» слова справацифры начало абзацанет конец абзацанет
34 Вкратце Зачем и почему Примеры Признаки Эксперименты
35 Данные НКРЯ, 33 документа: политика, культура ремонт локомотивов Ручная разметка
36 Данные - статистика предложений1639 предложений с.?!1414 контекстов5230(= ) контекстов с.?!2048
37 Контрольные эвристики termpunct: Предложение должно заканчиваться «.», «?», или «!». termpunct_cap: +Предложение должно начинаться с заглавной буквы. advanced: + Предложение не должно заканчиваться сокращением и «.».
38 Результаты-1 точностьполнота termpunct67.2**100 termpunct_cap90.7**97.0 advanced C **98.5 Ripper98.5**98.5 SVM**99.6**98.5
39 Результаты-2 точностьполнота termpunct66.9**98.9 termpunct_cap89.6**96.0 Advanced C4.5*98.5**97.5 Ripper**98.9**96.0 SVM**99.6**97.5
40 Пример Был на церемонии момент, когда прозвучала пронзительно высокая и чистая нота. " Ника " за " Честь и Достоинство "-- вот так, всё с заглавной буквы -- вручалась Петру Ефимовичу Тодоровскому. Петру Тодоровскому -- оператору и режиссёру, композитору и музыканту, солдату и просто замечательному человеку. Он молодой, ошалевший от победной весны 45-го, смотрел на нас с экрана в хуциевском фильме " Был месяц май ". Он вышел на сцену под гром аплодисментов и " Рио-риту ". Для своих ровесников и друзей так и оставшийся в его - то годы Петей Тодоровским. Он прошёл через зал," по главной улице с оркестром ", держа в руках гитару. Спасибо вам, дорогой Петр Ефимович ! За веру, верность и " Верность ", за всё ваше кино, за то, что вы сделали для нас, за вашу нескончаемую любовь, за то, что вы есть. За то, что " и вcё-таки, и вcё-таки, и вcё-таки мы победили "! Той весной. За то, что у нас есть эта весна. И это ее семнадцатое мгновение.
41 Заключение статистический подход к задаче определения границ предложений в произвольном тексте на русском языке: легко адаптировать к новым данным и задачам высокая скорость высокая полнота и точность В будущем: лингвистическая экспертиза (сокращения) новые данные (кавычки)
42 Спасибо!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.