Лекция 9. Обзор корпусов. В.П. Захаров Санкт-Петербургский государственный университет.

Презентация:



Advertisements
Похожие презентации
1 Предмет корпусной лингвистики. Сопоставление корпусной и традиционной лингвистики 2 История создания лингвистических корпусов 3 Типология корпусов.
Advertisements

Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет.
Электронные корпуса Корпусная лингвистика. Корпусная лингвистика ? Корпусная лингвистика - наука, занимающаяся разработкой общих принципов построения.
Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет.
Лекция 2. Технология создания корпусов В.П. Захаров Санкт-Петербургский государственный университет.
Мультимедийные корпуса Семинар по идишу Ольга Созинова.
Британские корпуса и словари Какие из корпусов авторитетны?
Лекция 2. Онлайновые словари. Понятие лексикографического гипертекста.
Делители и кратные Задание для устного счета Упражнение 2 6 класс Все права защищены. Copyright(c) Copyright(c)
Лымарь. Баннер как основной носитель Интернет- рекламы. Баннерные стандарты Рунета.
Формировать и совершенствовать речевые умения, используя современные аутентичные материалы; Пополнять словарный запас лексикой современного английского.
Арифметика рациональных чисел Какие числа мы знаем…
RussNet как компьютерный тезаурус нового типа И.В.Азарова Санкт-Петербургский государственный университет Филологический факультет Кафедра математической.
Инструменты невидимой веб Инструменты для поиска баз данных не в HTML –Complete Planet –Librarians Index to the Internet
Лекция 10. Лингвистические исследования. Использование корпусов В.П. Захаров Санкт-Петербургский государственный университет.
обобщить и систематизировать знания учащихся о разнообразии растений; дать представление о растении как живом организме; развивать.
Автоматическая обработка ЕЯ (обработка текста) 2 курс.
Центр «КАРЬЕРА» Основные направления деятельности центра: 1)оказание содействия в организации различных проектов, выставок, конференций и других мероприятий.
Предметное образование IKT в Великобритании Автор: Павлова И.А., учитель информатики МОУ «Гимназия 1» г. Чебоксары.
Роль интернета в работе библиотекаря Драгомирова М.В.
Транксрипт:

Лекция 9. Обзор корпусов. В.П. Захаров Санкт-Петербургский государственный университет

Лекция 9Корпусная лингвистика2 Классификация корпусов (1) Два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.); 2) разделение корпусов по типу лингвистической разметки. Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам морфологического либо синтаксического типа (treebanks, «банки синтаксических структур»).

Лекция 9Корпусная лингвистика3 Классификация корпусов (2) Для анализа и сравнения корпусов необходим набор признаков-характеристик. В частности: Тип данных Язык текстов «Параллельность» «Литературность» Специфичность Жанр Доступность Назначение Динамичность Разметка Характер разметки Объем текстов Хронологический аспект «Общность» Структура

Лекция 9Корпусная лингвистика4 Корпусы в Интернет (1) Национальный корпус русского языка 70 млн слов Компьютерный корпус текстов русских газет конца ХХ-го века тыс. слов Корпус русского языка ХАНКО (Хельсинский университет) тыс. слов Ручная морфологическ ая разметка Корпуса русских текстов на сайте Университета в Лидсе, Великобритания Русские корпуса Тюбингенского Университета tuebingen.de/b1/en/korpora.html Словарь-корпус языка А.С. Грибоедова тыс. слов

Лекция 9Корпусная лингвистика5 Корпусы в Интернет (2) Уппсальский корпус русских текстов Доступен для поиска на сайте tuebingen.de/b1/en/korpora.html 1 млн слов 600 текстов (публицистика ; литературные произведения ) Банк английского языка (Bank of English) px?group=153 Свободный доступ: CorpusSearch.aspx 524 млн слов, 56 млн в свободном доступе (The Collins Wordbanks Online English corpus: 36 млн – брит. англ., 10 млн – амер. англ., 10 млн – брит. разговорн. англ.) Британский национальный корпус или млн слов Корпусные менеджеры SARA и XAIRA ( Венгерский национальный корпус млн слов

Лекция 9Корпусная лингвистика6 Корпусы в Интернет (3) Корпус испанского языка (исторический) млн слов, тексты 13–20 вв. Создан в Иллинойском университете, США Корпус современного датского языка 50 млн слов Тексты 1998–2002 гг. Корпус современного итальянского языка CORIS/CODIS млн слов Корпус современного китайского языка (LIVAC Synchronous Corpus) млн слов (150 млн иероглифов) Мангеймский корпус немецкого языка (Institut für Deutsche Sprache, Mannheim, Germany) mannheim.de/~cosmas/ 1610 млн слов Корпусный менеджер COSMAS Национальный корпус словенского языка Более 100 млн слов

Лекция 9Корпусная лингвистика7 Корпусы в Интернет (4) Польский национальный корпус 93 млн слов Словацкий национальный корпус млн слов Используется корпусный менеджер Manatee/Bonito Хорватский национальный корпус 53 млн слов Корпусный менеджер Manatee/Bonito Чешский национальный корпус млн слов млн нового корпуса современной лексики Корпусный менеджер Manatee/Bonito Эстонский корпус pus/1980/index.html.en

Лекция 9Корпусная лингвистика8 Корпусы в Интернет (5)

Лекция 9Корпусная лингвистика9 Национальный корпус русского языка (ruscorpora.ru) предыстория Проекта; текущие задачи Проекта; состав рабочих групп; источники текстов; поисковая система; дизайн и поддержка сайта

Лекция 9Корпусная лингвистика10 Национальный корпус русского языка (2)

Лекция 9Корпусная лингвистика11 Поиск в НКРЯ (1) Поле «Слово» Поле «Грамматические признаки» Поле «Семантические признаки» Расстояние между словами

Лекция 9Корпусная лингвистика12 Поиск в НКРЯ (2)

Лекция 9Корпусная лингвистика13 Британский национальный корпус (BNC)

Лекция 9Корпусная лингвистика14 The LIVAC (Linguistic Variations in Chinese Speech Communities) synchronous corpus

Лекция 9Корпусная лингвистика15 Корпус польского языка (1)

Лекция 9Корпусная лингвистика16 Корпус польского языка (2)

Лекция 9Корпусная лингвистика17 Словацкий национальный корпус (SNK)

Лекция 9Корпусная лингвистика18 Чешский национальный корпус (ČNK)