Презентация Некоторые особенности формирования электронного корпуса текстов с синтаксической разметкой Рогов А.А., Гурин Г.Б., Котов А.А., Сидоров Ю.В., Седов А.В., Некрасов М.Ю.
Упрощенная структура словаря Часть речи ГлаголСуществительное ВремяФорма Настоящее Прошедшее Род Мужской Женский Падеж Именительный Прилагательное Число Система грамматической атрибуции
Сложности, возникающие при создании грамматического словаря XIX века Мужчина Мужщина Музжчина Мужчина Написание XIX-го века Современное написание
Сложности, возникающие при создании грамматического словаря Печь СуществительноеГлагол ? Кофе Мужской родСредний род ?
БД морфологии ID: integer Title: Varchar(200) Author_ID: integer Magazine_ID: integer Magazine_No: integer Publication_date: timestamp Comment: Blob Url: Varchar(255) TEXT ID: integer Word: Varchar(200); TextId: integer; ChapterIndex: integer; ParagraphIndex: integer; SentenceIndex: integer; WordIndex: integer; Dictword_id: integer; WORD ID: integer Word: Varchar(200); InitialForm: Varchar(200); Modern: Varchar(200); Param_i: integer; ENTRIES ID: integer ItemCaption: Varchar(200); ParamsCount: integer; Param01: integer; … Param30: integer; MENU_ITEMS ID: integer ParamCaption: Varchar(200); ItemsCount: integer; Item01: integer; … Item30: integer; MENU_PARAMS Система грамматической атрибуции
Программа для морфологии Система грамматической атрибуции
Выбор синтаксического аннотирования Существующие корпусы со встроенной синтаксической разметкой опираются либо на общепринятые классификации традиционной («школьной») грамматики (Хельсинкский аннотированный корпус русских текстов ХАНКО; либо на доступные узкому кругу специалистов и требующие детального предварительного знакомства классификации, например разметка в терминах деревьев зависимостей и синтаксических отношений, принятых в теории «Смысл-Текст», как в Национальном корпусе русского языка ( В создаваемом корпусе в основу синтаксической разметки положена идея структурной схемы в понимании Н. Ю. Шведовой и ее последователей, наиболее полно отраженная и развитая в «Русской грамматике». Создание полного списка структурных схем простого предложения (в корпусе размечаются предикативные клаузы) – отдельная научная проблема, не имеющая пока своего окончательного решения. На данный момент в научном обороте существуют как минимум три списка структурных схем – различные как количественно, так и качественно: 1) список схем «Русской грамматики» (1980); 2) список «минимальных схем» В. А. Белошапковой; 3) список схем О. А. Крыловой и Е. Н. Ширяева.
Последняя классификация с небольшими изменениями и дополнениями была взята за основу разметки настоящего корпуса. Этот выбор объясняется двумя причинами: во-первых, использование структурных схем для синтаксической разметки в корпусе имеет свою специфику, во-вторых, ситуация изучения вопроса такова, что ни один из существующих списков структурных схем нельзя признать окончательно полным. На выходе мы получили наиболее полный и сбалансированный список структурных схем простого предложения, который был использован для синтаксической разметки текстов.
С ВОБОДНЫЕ СТРУКТУРНЫЕ ДВУХКОМПОНЕНТНЫЕ СХЕМЫ А. Раздельнопредикативные схемы: 1. Подлежащно-сказуемостные схемы 1а. С координируемыми главными членами N 1 +V f : Иван читает газету; Пиши письмо; Ты бы подумал. N 1 +(сор)+N 1 : Бог есть любовь. N 1 +Adj: День сегодня холодный; Старики ворчливы. N 1 +Part: Брак расторгнут. 1б.С некоординируемыми главными членами. N 1 + N 2… (Adv): Отец в саду; Сад недалеко. N 1 +Inf: Мой долг – воспрепятствовать вам; Какая мука воспитывать! N 1 +(сор)+Praed: Шахматы это здорово. Inf+Praed (part) : Читать неохота, Курить вредно. Inf+(сор)+N 1 : Помогать ему – моя обязанность. Inf+V f3s : Рассчитывать на большее не приходится. Inf+Pron neg : Спорить тут не о чем. Inf+Inf: Курить здоровью вредить.
2. Неподлежащно-сказуемостные схемы. N 2 +(не) V f3s : Беды не случится. N 2 /N 4 +(не) Praed (part) : Следов не видно, Нарушений не обнаружено, Людей жаль. N 4 +V f3s : Ивана укачивает. N 2 +N 1quant (Adv quant ): Народу толпа, Ягод полно. N 2 +нет: Замечаний нет. N 3 + V f3s : Ей не спится. N 3 +Praed: Мне лень. N 2 +никого/ничего: Народу никого.
Синтаксическая атрибуция 4 клаузы: Вася пошел в бассейн Вася плавал там до вечера Тот самый отличник и староста Который открылся на днях Система синтаксической атрибуции
Программа синтаксиса Система синтаксической атрибуции
БД синтаксической атрибуции ID: integer PartID: integer; ClouseID: integer; PARTCLOUSES ID: integer ClouseIndex: integer; Scheme: integer; StartPart: integer; CLOUSES ID: integer TextId: integer; ChapterIndex: integer; ParagraphIndex: integer; SentenceIndex: integer; PartIndex: integer; Part: Varchar(1000); PARTS ID: integer Title: Varchar; Author: Varchar; TEXTS Система синтаксической атрибуции
СхемаКоличествоЧастота N 1 + V f ,5 % N 1 + Adj30218,3 % N 1 + (cop) + N ,5 % N 1 + Part14744 % Praed (part) Inf11603,2 % N1N % N 1 + N 2 …(Adv)10382,9 % Анализ использования структурных схем Система синтаксической атрибуции
Смешанная БД грамматической и синтаксической атрибуции ID: integer PartID: integer; ClouseID: integer; PARTCLOUSES ID: integer ClouseIndex: integer; Scheme: integer; StartPart: integer; CLOUSES ID: integer Word: Varchar(200); PartId: integer; WordIndex: integer; Dictword_id: integer; WORD ID: integer Word: Varchar(200); InitialForm: Varchar(200); Modern: Varchar(200); Param_i: integer; ENTRIES ID: integer TextId: integer; ChapterIndex: integer; ParagraphIndex: integer; SentenceIndex: integer; PartIndex: integer; Part: Varchar(1000); PARTS ID: integer Title: Varchar; Author: Varchar; TEXTS
Оптимизация данных под поиск Оптимизация по скорости получения информации Оптимизация по объёму хранимой информации Оптимизация количества информации единовременно предоставляемой пользователю
Временные характеристики Вид поискаВремя поиска 1 БДВремя поиска 2 БДВремя поиска 3 БД Слово (написание, нач. форма) Выбор слова и параметоров Поиск по грамм. Параметрам Поиск по грамм. + вывод контекста Поиск по слову + грамм. признаки Поиск слова + по грамм. + вывод контекста Поиск по синтаксису Смешанный поиск
Результаты оптимизации Хранение всех признаков в одной записи Хранение пар: слово – его параметры Количество строк: 10
Реализованные типы поиска Поиск по словоформе Поиск по грамматическим признакам Поиск по синтаксическим признакам Поиск контекста Алфавитный и частотный словари
Представление информации на сайте
Полученные результаты
Статистика БД Количество текстов80 Количество слов в текстах Количество слов в словаре37670 Количество разобранных клауз36224 Размер на диске130 Мб
Благодарю за внимание