Электронные корпуса Корпусная лингвистика. Корпусная лингвистика ? Корпусная лингвистика - наука, занимающаяся разработкой общих принципов построения.

Презентация:



Advertisements
Похожие презентации
Российские разработки корпусов устной речи I. Корпусы звучащей речи = фонетические базы данных II. Корпусы устных текстов.
Advertisements

Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет.
1 Предмет корпусной лингвистики. Сопоставление корпусной и традиционной лингвистики 2 История создания лингвистических корпусов 3 Типология корпусов.
Британские корпуса и словари Какие из корпусов авторитетны?
Формальное представление лексических отношений русских глаголов Магистерская диссертация Галушко Надежды Леонидовны (филологический факультет, кафедра.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Лекция 9. Обзор корпусов. В.П. Захаров Санкт-Петербургский государственный университет.
Лекция 2. Онлайновые словари. Понятие лексикографического гипертекста.
Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет.
Компьютерная лингвистика Отдел мультиагентных систем ИИПРУ КБНЦ РАН.
Инструменты ИКТ в обучении лексике Web based Concordancers and other tools for Vocabulary development Москва, 2010 Наталья Катасонова.
ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
ЗАДАЧИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ. 1.Что такое компьютерная лингвистика? 2. История. 3. Направления компьютерной лингвистики. 4. Заключение.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Лингваториум: адаптивная обучающая система и полигон для доказательных лингвистических исследований Евгений Чухарев-Худилайнен
Мультимедийные корпуса Семинар по идишу Ольга Созинова.
Автоматическое определение авторства Лидия Михайловна Пивоварова Системы понимания текста.
RussNet как компьютерный тезаурус нового типа И.В.Азарова Санкт-Петербургский государственный университет Филологический факультет Кафедра математической.
ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Транксрипт:

Электронные корпуса Корпусная лингвистика

Корпусная лингвистика ? Корпусная лингвистика - наука, занимающаяся разработкой общих принципов построения и использования языковых корпусов с применением компьютерных технологий.

История е годы - Brown Corpus е годы - частотный словарь русского языка Засориной е годы - русский корпус е годы - Bank of English, British National Corpus, Машинный фонд русского языка

Национальный корпус Национальный корпус имеет две важные особенности : i. он характеризуется представительностью, или сбалансированным составом текстов ; ii. корпус содержит особую дополнительную информацию о свойствах входящих в него текстов ( так называемую разметку, или аннотацию ). Разметка главная характеристика корпуса ; она отличает корпус от простых коллекций текстов. Национальный корпус имеет две важные особенности : i. он характеризуется представительностью, или сбалансированным составом текстов ; ii. корпус содержит особую дополнительную информацию о свойствах входящих в него текстов ( так называемую разметку, или аннотацию ). Разметка главная характеристика корпуса ; она отличает корпус от простых коллекций текстов.

Национальный корпус русского языка Объём корпуса ( Википедия ) Объём основного корпуса на 17 января 2013 года составлял 230 млн словоупотреблений, а общий объем корпусов 384 млн словоупотреблений. 1,5 % текстов снабжены морфологической и семантической разметкой.

COSMAS corpora или DeReKo Объём корпуса ( Википедия ) Объём корпуса составляет более 1846 млн словоупотреблений. DeReKo нацелен на охват максимально возможного объема текстов, а не на сбалансированность их состава : распределение текстов по времени создания или по типу текста не соответствует заранее заданным процентным соотношениям.

Corpus of Contemporary American English, COCA