Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемВалерия Беглова
1 1 Non-Stochastic Learning of Cross-Language Transliteration Rules From Small Dataset Варвара Логачева, Эдуард Клышинский Институт прикладной математики им. М.В.Келдыша г. Москва
2 2 Существующие методы транскрипции (Knight and Grael) K. Knight and J. Graehl Machine transliteration. Computational Linguistics, 24(4):599–612. WFSA-A – разделение входа на слова WFST-B – генерация фонемного состава английского языка WFST-C – преобразование в фонемный японского языка WFST-D – преобразование в азбуку катакана На каждом этапе используется вероятностная информация Статистический метод – обучение конечного автомата Задача обратной транслитерации (японский английский)
3 3 Генерация правил A А AE А {} АЙ adria;адрия adrian;адриан adriana;адриана adriane;адриан adrianna;адрианна adrianne;адрианн adrien;адриан adriene;адриен adrienn;адрианн adrienna;адрианна aldema;альдема aldena;альдена aldenaide;альденед aldenaise;альденез
4 4 Этапы генерации правил Разделение слов на группы гласных и согласных Порождение первичных правил Разделение слов на слоги Пробный разбор Пополнение системы правил Обучающая выборка Система правил
5 5 Первичные правила Слово w = l 1 l 2 …l n Граница группы – между l i и l i+1 такими, что isVowel (l i ) isVowel (l i+1 ) R | u | gg | ie | r | o M | a | cch | i R | u | dzh | e | r | o M | a | kk | i isVowel ( l ) = true, если l – гласная false, если l – согласная
6 6 Учет контекста l л anjela – анжела cella – селла l {a, o, u, i, e, l} л l ль almelda – альмельда avital – авиталь l {>, t, d, p, m} ль
7 7 A d r i a n a A l d e n a A l m e l i n e А д р и а н а А л ь д е н а А л ь м е л и н Деление на слоги
8 8 Порождение сложных правил Каждую пару слогов можно представить как, где p x c x – подстрока, не удовлетворяющая ни одному из существующих правил. Можно выделить три случая несоответствия p x правилам.
9 9 Порождение сложных правил px =, cx o px, cx = o px, cx lde льде de ьде d ьд _ ь l л l ль l л e е l л e е d д
10 10 Результаты: качество обучения Исходный языкCTUCTATV Японский7005 (99%)4778 (68%)1,38 Китайский4468 (95%)4173 (89%)1,06 Немецкий3484 (82%)3247 (77%)1,07 Арабский2102 (99%)1793 (85%)1,19 Шведский1576 (88%)905 (50%)1,61 Польский1424 (99%)1174 (81%)1,2 Испанский1025 (98%)777 (74%)1,33 Французский678 (89%)227 (29%)2,66 Румынский565 (97%)295 (52%)1,78 Словенский502 (99%)354 (70%)1,3 Тагальский257 (87%)225 (76%)1,14 Монгольский231 (100%)227 (98%)1,02 Хинди160 (99%)152 (94%)1,05
11 11 Результаты: качество транскрипции ЯзыкТестовая выборка CTUCTANLAE Японский (94%)496 (70%)0,0431,125 Китайский (93%)406 (86%)0,0261,23 Немецкий (80%)325 (77%)0,0321,176 Арабский (80%)160 (75%)0,0541,5 Шведский (83%)82 (46%)0,1311,33 Польский (95%)123 (85%)0,0271,5 Испанский10599 (94%)76 (72%)0,0381,125
12 12 Конец
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.