Вариативность орфографий в идише Д. Кирьянов, Б. Орехов, Т. Панова НИУ ВШЭ.

Презентация:



Advertisements
Похожие презентации
Графическая система современного русского языка..
Advertisements

Письмо буквы ю Урок письма в 1 «В» классе Учитель Филатова Н.А.
Чувашская письменность Общее название алфавитов, буквы которых использовались для передачи элементов звуковой речи в письменности древнечувашского и современного.
Типичные ошибки при заполнении бланков ответов экзамена.
ПЕДАГОГИЧЕСКИЙ ДИЗАЙН В ОБУЧЕНИИ РУССКОМУ ЯЗЫКУ (НА ПРИМЕРЕ РЕАЛИЗАЦИИ ПРОГРАММИРОВАННОЙ МОДЕЛИ УРОКА ОРФОГРАФИИ) УЧИТЕЛЬ РУССКОГО ЯЗЫКА И ЛИТЕРАТУРЫ МБОУ.
Типичные ошибки при заполнении бланков Единого государственного экзамена.
Основой образовательного стандарта нового поколения является системно- деятельностный подход, который является основополагающим и в системе развивающего.
КИРИЛЛИЧЕСКАЯ СИСТЕМА СЧИСЛЕНИЯ Древней Руси Автор презентации: Килязова Екатерина.
Формирование орфографической зоркости у учащихся начальных классов Учитель Беляева И.В.
Предмет Тема теста 0 класс Amo Текст вопроса 1 вариант ответа - верный 2 вариант ответа Выбор одного из многих (1 из 4 – верный ответ 1) 3 вариант.
Предмет Тема теста 0 класс Amo Текст вопроса 1 вариант ответа - верный 2 вариант ответа - верный Выбор многих из многих ( 3 из 4 – верный ответ.
Лекция 1. Этапы разработки программы.. Человек вводит в компьютер исходные данные (например, с клавиатуры).
Предмет Тема теста 0 класс Amo Текст вопроса 1 вариант ответа - верный 2 вариант ответа - верный Выбор многих из многих ( 2 из 4 – верный ответ.
Урок 3. Что мы знаем о русском языке Коваленко Л.В.
ПЛАН. ТЕЗИСЫ. КОНСПЕКТ.. План План - взаимное расположение частей, краткая программа какого-нибудь изложения.
Учебник «нового типа», методы и формы работы, используемые на уроках русского языка по программе Г.Г. Граник.
Орфография (от греч. orthos «правильно» и graphо «пишу») – это исторически сложившаяся система правил, устанавливающих написания слов. Орфограмма (от.
Система счисления это знаковая система, в которой числа записываются по определенным правилам с помощью символов некоторого алфавита, называемых цифрами.
Вычисление производных (численное дифференцирование)
Сжатие информации Алгоритм Хаффмана. Сжатие информации Сжатие данных – сокращение объема данных при сохранении закодированного в них содержания.
Транксрипт:

Вариативность орфографий в идише Д. Кирьянов, Б. Орехов, Т. Панова НИУ ВШЭ

Постановка проблемы Сейчас парсер корпуса идиша работает только с одной орфографией; она считается нормативной, но она введена в 1913 г.; огромное количество текстов (XIX-XX вв.) написано в других орфографиях; эти тексты пока невозможно включить в корпус; необходим орфографический нормализатор.

Постановка проблемы У пользователя должна быть возможность посмотреть выдачу корпуса и в латинице. Соответственно, наш нормализатор должен: уметь нормализовать орфографию транслитерировать показывать в выдаче корпуса исходный вариант в оригинальной орфографии, но при этом правильно размеченный выдавать транслитерированный в латиницу вариант – как оригинальный, так и нормализованный

Ход работы Обзор орфографических традиций свидетельствует об отсутствии чётких правил внутри каждой из них. Исчисление возможных отклонений от нормативной орфографии: единицы какого уровня имеют вариативность – только буквы? морфемы? слова? Что должна знать программа? Создание нормализатора Создание транслитератора Подключение их к процессу обработки текстов для корпуса.

Орфография идиша и проблемы нормализации Идиш пользуется еврейским квадратным письмом, в основном слова записываются фонетически. Где наблюдается вариативность? Исключения из фонетического принципа записи – заимствования из семитских языков (записываются консонантным письмом): מיר - mir - [mir] VS כּל - kl - [kol], но в некоторых издательских практиках записываются фонетически

Орфография идиша и проблемы нормализации Для различения некоторых букв в разных орфографических традициях используется либо диакритика (как в нормативной), либо «немые» буквы א - a, ה – h Произношение некоторых морфем отошло от их традиционного написания, В некоторых орфографиях отсутствует диакритика. Поэтому некоторые графемы становятся неразличимы: אַ/אָ – a/o א – a, o И некоторые другие

Технология и тестирование Алфавит со всеми вариантами букв Проблемные морфемы, буквосочетания и слова с вариантами модуль для гебраизмов n-граммы, HMM для букв без диакритики точность - 98% для текстов в нормативной орфографии (2% - заимствования из семитских языков), 94-97% для текстов в других орфографиях полнота - 100%