Презентация Некоторые особенности формирования электронного корпуса текстов с синтаксической разметкой Рогов А.А., Гурин Г.Б., Котов А.А., Сидоров Ю.В.,

Презентация:



Advertisements
Похожие презентации
Владивостокский государственный университет экономики и сервиса Институт иностранных языков Кафедра русского языка ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТА Тема 4.
Advertisements

СИНТАКСИС КАК УЧЕНИЕ О ПРЕДЛОЖЕНИИ И СЛОВОСОЧЕТАНИИ Лекция 1.
Местоимение. Местоимения отличаются от других самостоятельных частей речи тем, что они не называют предметы и признаки, а только указывают на них. Например.
Что такое сочинение-рассуждение
СЛОВАРЬ / DICTIONARY Словарь - это вся вселенная в алфавитном порядке! Если хорошенько подумать, словарь – это книга книг. Он включает в себя все другие.
Местоимение как часть речи Он Она Оно Они Я и Ты Вы и Мы ЛИЧНЫЕ МЕСТОИ МЕНИЯ 6 класс, учитель Хатинская И.П.
Пишем сочинение на лингвистическую тему. Функции знаков препинания: 1.Выделительные 2.Разделительные.
Апробация инструментария для оценки метапредметных результатов в начальной школе (комплексная работа) Ковалева Г.С.
КУРС «WEB-ДИЗАЙН». Что такое Web-страница? То, что мы видим в окне браузера, когда заходим на какой-либо сайт! Мы видим веб-страницу сайта – ее содержимое!
…такие слова, которые обозначают лицо, а также указывают на предметы, признаки, количество, но не называют их конкретно. Местоимение вне контекста имеют.
Анализ опроса на знания в области IT Попова Ксения НМТ
МестоименияМестоимения. Местоимение как часть речи 1. Местоимение – часть речи, которая указывает на предметы, признаки и количества, но не называет их.
Морфология Имя прилагательное Имя числительное Тест.
Коллокации и конструкции в исследовании структуры текста Лидия Пивоварова Елена Ягунова
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Муниципальное бюджетное общеобразовательное учреждение средняя общеобразовательная школа 1 р. п. Переяславка.
Местоимение Местоимение Работу выполнила Работу выполнила ученица 10 класса Бишевской СОШ Апастовского района РТ Миннуллина Роза Руководитель: Алексеева.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Транксрипт:

Презентация Некоторые особенности формирования электронного корпуса текстов с синтаксической разметкой Рогов А.А., Гурин Г.Б., Котов А.А., Сидоров Ю.В., Седов А.В., Некрасов М.Ю.

Упрощенная структура словаря Часть речи ГлаголСуществительное ВремяФорма Настоящее Прошедшее Род Мужской Женский Падеж Именительный Прилагательное Число Система грамматической атрибуции

Сложности, возникающие при создании грамматического словаря XIX века Мужчина Мужщина Музжчина Мужчина Написание XIX-го века Современное написание

Сложности, возникающие при создании грамматического словаря Печь СуществительноеГлагол ? Кофе Мужской родСредний род ?

БД морфологии ID: integer Title: Varchar(200) Author_ID: integer Magazine_ID: integer Magazine_No: integer Publication_date: timestamp Comment: Blob Url: Varchar(255) TEXT ID: integer Word: Varchar(200); TextId: integer; ChapterIndex: integer; ParagraphIndex: integer; SentenceIndex: integer; WordIndex: integer; Dictword_id: integer; WORD ID: integer Word: Varchar(200); InitialForm: Varchar(200); Modern: Varchar(200); Param_i: integer; ENTRIES ID: integer ItemCaption: Varchar(200); ParamsCount: integer; Param01: integer; … Param30: integer; MENU_ITEMS ID: integer ParamCaption: Varchar(200); ItemsCount: integer; Item01: integer; … Item30: integer; MENU_PARAMS Система грамматической атрибуции

Программа для морфологии Система грамматической атрибуции

Выбор синтаксического аннотирования Существующие корпусы со встроенной синтаксической разметкой опираются либо на общепринятые классификации традиционной («школьной») грамматики (Хельсинкский аннотированный корпус русских текстов ХАНКО; либо на доступные узкому кругу специалистов и требующие детального предварительного знакомства классификации, например разметка в терминах деревьев зависимостей и синтаксических отношений, принятых в теории «Смысл-Текст», как в Национальном корпусе русского языка ( В создаваемом корпусе в основу синтаксической разметки положена идея структурной схемы в понимании Н. Ю. Шведовой и ее последователей, наиболее полно отраженная и развитая в «Русской грамматике». Создание полного списка структурных схем простого предложения (в корпусе размечаются предикативные клаузы) – отдельная научная проблема, не имеющая пока своего окончательного решения. На данный момент в научном обороте существуют как минимум три списка структурных схем – различные как количественно, так и качественно: 1) список схем «Русской грамматики» (1980); 2) список «минимальных схем» В. А. Белошапковой; 3) список схем О. А. Крыловой и Е. Н. Ширяева.

Последняя классификация с небольшими изменениями и дополнениями была взята за основу разметки настоящего корпуса. Этот выбор объясняется двумя причинами: во-первых, использование структурных схем для синтаксической разметки в корпусе имеет свою специфику, во-вторых, ситуация изучения вопроса такова, что ни один из существующих списков структурных схем нельзя признать окончательно полным. На выходе мы получили наиболее полный и сбалансированный список структурных схем простого предложения, который был использован для синтаксической разметки текстов.

С ВОБОДНЫЕ СТРУКТУРНЫЕ ДВУХКОМПОНЕНТНЫЕ СХЕМЫ А. Раздельнопредикативные схемы: 1. Подлежащно-сказуемостные схемы 1а. С координируемыми главными членами N 1 +V f : Иван читает газету; Пиши письмо; Ты бы подумал. N 1 +(сор)+N 1 : Бог есть любовь. N 1 +Adj: День сегодня холодный; Старики ворчливы. N 1 +Part: Брак расторгнут. 1б.С некоординируемыми главными членами. N 1 + N 2… (Adv): Отец в саду; Сад недалеко. N 1 +Inf: Мой долг – воспрепятствовать вам; Какая мука воспитывать! N 1 +(сор)+Praed: Шахматы это здорово. Inf+Praed (part) : Читать неохота, Курить вредно. Inf+(сор)+N 1 : Помогать ему – моя обязанность. Inf+V f3s : Рассчитывать на большее не приходится. Inf+Pron neg : Спорить тут не о чем. Inf+Inf: Курить здоровью вредить.

2. Неподлежащно-сказуемостные схемы. N 2 +(не) V f3s : Беды не случится. N 2 /N 4 +(не) Praed (part) : Следов не видно, Нарушений не обнаружено, Людей жаль. N 4 +V f3s : Ивана укачивает. N 2 +N 1quant (Adv quant ): Народу толпа, Ягод полно. N 2 +нет: Замечаний нет. N 3 + V f3s : Ей не спится. N 3 +Praed: Мне лень. N 2 +никого/ничего: Народу никого.

Синтаксическая атрибуция 4 клаузы: Вася пошел в бассейн Вася плавал там до вечера Тот самый отличник и староста Который открылся на днях Система синтаксической атрибуции

Программа синтаксиса Система синтаксической атрибуции

БД синтаксической атрибуции ID: integer PartID: integer; ClouseID: integer; PARTCLOUSES ID: integer ClouseIndex: integer; Scheme: integer; StartPart: integer; CLOUSES ID: integer TextId: integer; ChapterIndex: integer; ParagraphIndex: integer; SentenceIndex: integer; PartIndex: integer; Part: Varchar(1000); PARTS ID: integer Title: Varchar; Author: Varchar; TEXTS Система синтаксической атрибуции

СхемаКоличествоЧастота N 1 + V f ,5 % N 1 + Adj30218,3 % N 1 + (cop) + N ,5 % N 1 + Part14744 % Praed (part) Inf11603,2 % N1N % N 1 + N 2 …(Adv)10382,9 % Анализ использования структурных схем Система синтаксической атрибуции

Смешанная БД грамматической и синтаксической атрибуции ID: integer PartID: integer; ClouseID: integer; PARTCLOUSES ID: integer ClouseIndex: integer; Scheme: integer; StartPart: integer; CLOUSES ID: integer Word: Varchar(200); PartId: integer; WordIndex: integer; Dictword_id: integer; WORD ID: integer Word: Varchar(200); InitialForm: Varchar(200); Modern: Varchar(200); Param_i: integer; ENTRIES ID: integer TextId: integer; ChapterIndex: integer; ParagraphIndex: integer; SentenceIndex: integer; PartIndex: integer; Part: Varchar(1000); PARTS ID: integer Title: Varchar; Author: Varchar; TEXTS

Оптимизация данных под поиск Оптимизация по скорости получения информации Оптимизация по объёму хранимой информации Оптимизация количества информации единовременно предоставляемой пользователю

Временные характеристики Вид поискаВремя поиска 1 БДВремя поиска 2 БДВремя поиска 3 БД Слово (написание, нач. форма) Выбор слова и параметоров Поиск по грамм. Параметрам Поиск по грамм. + вывод контекста Поиск по слову + грамм. признаки Поиск слова + по грамм. + вывод контекста Поиск по синтаксису Смешанный поиск

Результаты оптимизации Хранение всех признаков в одной записи Хранение пар: слово – его параметры Количество строк: 10

Реализованные типы поиска Поиск по словоформе Поиск по грамматическим признакам Поиск по синтаксическим признакам Поиск контекста Алфавитный и частотный словари

Представление информации на сайте

Полученные результаты

Статистика БД Количество текстов80 Количество слов в текстах Количество слов в словаре37670 Количество разобранных клауз36224 Размер на диске130 Мб

Благодарю за внимание