Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемrcdl.ru
1 Презентация Некоторые особенности формирования электронного корпуса текстов с синтаксической разметкой Рогов А.А., Гурин Г.Б., Котов А.А., Сидоров Ю.В., Седов А.В., Некрасов М.Ю.
2 Упрощенная структура словаря Часть речи ГлаголСуществительное ВремяФорма Настоящее Прошедшее Род Мужской Женский Падеж Именительный Прилагательное Число Система грамматической атрибуции
3 Сложности, возникающие при создании грамматического словаря XIX века Мужчина Мужщина Музжчина Мужчина Написание XIX-го века Современное написание
4 Сложности, возникающие при создании грамматического словаря Печь СуществительноеГлагол ? Кофе Мужской родСредний род ?
5 БД морфологии ID: integer Title: Varchar(200) Author_ID: integer Magazine_ID: integer Magazine_No: integer Publication_date: timestamp Comment: Blob Url: Varchar(255) TEXT ID: integer Word: Varchar(200); TextId: integer; ChapterIndex: integer; ParagraphIndex: integer; SentenceIndex: integer; WordIndex: integer; Dictword_id: integer; WORD ID: integer Word: Varchar(200); InitialForm: Varchar(200); Modern: Varchar(200); Param_i: integer; ENTRIES ID: integer ItemCaption: Varchar(200); ParamsCount: integer; Param01: integer; … Param30: integer; MENU_ITEMS ID: integer ParamCaption: Varchar(200); ItemsCount: integer; Item01: integer; … Item30: integer; MENU_PARAMS Система грамматической атрибуции
6 Программа для морфологии Система грамматической атрибуции
7 Выбор синтаксического аннотирования Существующие корпусы со встроенной синтаксической разметкой опираются либо на общепринятые классификации традиционной («школьной») грамматики (Хельсинкский аннотированный корпус русских текстов ХАНКО; либо на доступные узкому кругу специалистов и требующие детального предварительного знакомства классификации, например разметка в терминах деревьев зависимостей и синтаксических отношений, принятых в теории «Смысл-Текст», как в Национальном корпусе русского языка ( В создаваемом корпусе в основу синтаксической разметки положена идея структурной схемы в понимании Н. Ю. Шведовой и ее последователей, наиболее полно отраженная и развитая в «Русской грамматике». Создание полного списка структурных схем простого предложения (в корпусе размечаются предикативные клаузы) – отдельная научная проблема, не имеющая пока своего окончательного решения. На данный момент в научном обороте существуют как минимум три списка структурных схем – различные как количественно, так и качественно: 1) список схем «Русской грамматики» (1980); 2) список «минимальных схем» В. А. Белошапковой; 3) список схем О. А. Крыловой и Е. Н. Ширяева.
8 Последняя классификация с небольшими изменениями и дополнениями была взята за основу разметки настоящего корпуса. Этот выбор объясняется двумя причинами: во-первых, использование структурных схем для синтаксической разметки в корпусе имеет свою специфику, во-вторых, ситуация изучения вопроса такова, что ни один из существующих списков структурных схем нельзя признать окончательно полным. На выходе мы получили наиболее полный и сбалансированный список структурных схем простого предложения, который был использован для синтаксической разметки текстов.
9 С ВОБОДНЫЕ СТРУКТУРНЫЕ ДВУХКОМПОНЕНТНЫЕ СХЕМЫ А. Раздельнопредикативные схемы: 1. Подлежащно-сказуемостные схемы 1а. С координируемыми главными членами N 1 +V f : Иван читает газету; Пиши письмо; Ты бы подумал. N 1 +(сор)+N 1 : Бог есть любовь. N 1 +Adj: День сегодня холодный; Старики ворчливы. N 1 +Part: Брак расторгнут. 1б.С некоординируемыми главными членами. N 1 + N 2… (Adv): Отец в саду; Сад недалеко. N 1 +Inf: Мой долг – воспрепятствовать вам; Какая мука воспитывать! N 1 +(сор)+Praed: Шахматы это здорово. Inf+Praed (part) : Читать неохота, Курить вредно. Inf+(сор)+N 1 : Помогать ему – моя обязанность. Inf+V f3s : Рассчитывать на большее не приходится. Inf+Pron neg : Спорить тут не о чем. Inf+Inf: Курить здоровью вредить.
10 2. Неподлежащно-сказуемостные схемы. N 2 +(не) V f3s : Беды не случится. N 2 /N 4 +(не) Praed (part) : Следов не видно, Нарушений не обнаружено, Людей жаль. N 4 +V f3s : Ивана укачивает. N 2 +N 1quant (Adv quant ): Народу толпа, Ягод полно. N 2 +нет: Замечаний нет. N 3 + V f3s : Ей не спится. N 3 +Praed: Мне лень. N 2 +никого/ничего: Народу никого.
11 Синтаксическая атрибуция 4 клаузы: Вася пошел в бассейн Вася плавал там до вечера Тот самый отличник и староста Который открылся на днях Система синтаксической атрибуции
12 Программа синтаксиса Система синтаксической атрибуции
13 БД синтаксической атрибуции ID: integer PartID: integer; ClouseID: integer; PARTCLOUSES ID: integer ClouseIndex: integer; Scheme: integer; StartPart: integer; CLOUSES ID: integer TextId: integer; ChapterIndex: integer; ParagraphIndex: integer; SentenceIndex: integer; PartIndex: integer; Part: Varchar(1000); PARTS ID: integer Title: Varchar; Author: Varchar; TEXTS Система синтаксической атрибуции
14 СхемаКоличествоЧастота N 1 + V f ,5 % N 1 + Adj30218,3 % N 1 + (cop) + N ,5 % N 1 + Part14744 % Praed (part) Inf11603,2 % N1N % N 1 + N 2 …(Adv)10382,9 % Анализ использования структурных схем Система синтаксической атрибуции
15 Смешанная БД грамматической и синтаксической атрибуции ID: integer PartID: integer; ClouseID: integer; PARTCLOUSES ID: integer ClouseIndex: integer; Scheme: integer; StartPart: integer; CLOUSES ID: integer Word: Varchar(200); PartId: integer; WordIndex: integer; Dictword_id: integer; WORD ID: integer Word: Varchar(200); InitialForm: Varchar(200); Modern: Varchar(200); Param_i: integer; ENTRIES ID: integer TextId: integer; ChapterIndex: integer; ParagraphIndex: integer; SentenceIndex: integer; PartIndex: integer; Part: Varchar(1000); PARTS ID: integer Title: Varchar; Author: Varchar; TEXTS
16 Оптимизация данных под поиск Оптимизация по скорости получения информации Оптимизация по объёму хранимой информации Оптимизация количества информации единовременно предоставляемой пользователю
17 Временные характеристики Вид поискаВремя поиска 1 БДВремя поиска 2 БДВремя поиска 3 БД Слово (написание, нач. форма) Выбор слова и параметоров Поиск по грамм. Параметрам Поиск по грамм. + вывод контекста Поиск по слову + грамм. признаки Поиск слова + по грамм. + вывод контекста Поиск по синтаксису Смешанный поиск
18 Результаты оптимизации Хранение всех признаков в одной записи Хранение пар: слово – его параметры Количество строк: 10
19 Реализованные типы поиска Поиск по словоформе Поиск по грамматическим признакам Поиск по синтаксическим признакам Поиск контекста Алфавитный и частотный словари
20 Представление информации на сайте
21 Полученные результаты
22 Статистика БД Количество текстов80 Количество слов в текстах Количество слов в словаре37670 Количество разобранных клауз36224 Размер на диске130 Мб
23 Благодарю за внимание
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.