Лекция 2. Технология создания корпусов В.П. Захаров Санкт-Петербургский государственный университет.

Презентация:



Advertisements
Похожие презентации
Лекция 11. Поисковые системы Интернет как корпусные менеджеры. Специализированные корпусные интерфейсы к индексам глобальных поисковых систем. В. П. Захаров.
Advertisements

Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет.
1 Российский государственный университет нефти и газа имени И.М. Губкина Проект: «Поддержка и развитие Интернет-портала по проблемам изучения русского.
Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет.
Автоматическая обработка естественного языка I. Обработка письменного текста.
Презентация дисциплины по выбору Для студентов, обучающихся по направлению «Прикладная информатика» Преподаватель: профессор кафедры «Информационные.
Цели библиотечно-информационной деятельности университета 1.Преобразование библиотеки в современный интегрированный информационный комплекс. 2.Повышение.
Магистратура в вузах России Санкт-Петербургский государственный университет Распределенная информационно-поисковая система © 2001.
Система управления электронными библиотеками Захаров А.А., Филиппов В.С. Вычислительный центр им. Дородницина РАН г. Москва.
Интерактивный подход в лингвистике Е.Г.Борисова
Cправочно – библиографическое обслуживание в электронной среде.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Проект общедоступного многопользовательского корпуса Проблемы и перспективы Дмитрий Грановский.
Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY.
Информационные системы Что такое ИС? Функции ИС Жизненные циклы ИС: Понятия Процессы Стадии Модели Основные способы построения ИС.
Фирма «АС» Комплексный подход в создании качественного цифрового контента.
Семинар «Письменное наследие – электронные корпуса и исследование истории славянских языков» (Регенсбург, ) И.В. Азарова, Е.Л.Алексеева Санкт-Петербургский.
Электронный каталог Научной библиотеки ДонНУ в системе библиотечного обслуживания Водолазская В.Н., зав. отделом научной обработки НБ ДонНУ.
Система – любой объект, который одновременно рассматривается и как единое целое, и как совокупность более мелких, разнородных объектов, объединенных для.
Технический проект системы Технический проект системы - это техническая документация, содержащая общесистемные проектные решения, алгоритмы решения задач,
Транксрипт:

Лекция 2. Технология создания корпусов В.П. Захаров Санкт-Петербургский государственный университет

Лекция 2Корпусная лингвистика2 Циклы создания корпуса A. A. Проектирование. B. B. Создание. C. C. Эксплуатация: 1) использование по назначению; 2) сопровождение.

Лекция 2Корпусная лингвистика3 Технологический процесс создания корпуса Проектирование корпуса. Определение перечня источников Оцифровка текстов: способы получения текстов в электронном виде; проблема авторского права Анализ и предварительная обработка текстов Подготовка "технологического" описания Подготовка библиографического и экстралингвистического описания Конвертирование (если требуется).

Лекция 2Корпусная лингвистика4 Технологический процесс создания корпуса (продолжение) Удаление или преобразование нетекстовых элементов Экстралингвистическая разметка текста Графематический анализ Собственно лингвистическая разметка. Автоматизация лингвистической разметки Корректировка результатов автоматической разметки: исправление ошибок и снятие неоднозначности.

Лекция 2Корпусная лингвистика5 Технологический процесс создания корпуса (продолжение) Конвертирование размеченных текстов в структуру специализированной лингвистической информационно- поисковой системы (corpus manager), обеспечивающей быстрый многоаспектный поиск и статистическую обработку Хранение промежуточных данных Обеспечение доступа к корпусу Документационное обеспечение.

Лекция 2Корпусная лингвистика6 Документационное обеспечение См.

Лекция 2Корпусная лингвистика7 Developing Linguistic Corpora: a Guide to Good Practice / Edited by Martin Wynne Preface Martin Wynne (AHDS Literature, Languages and Linguistics, University of Oxford, UK) Preface Chapter 1 Corpus and Text: Basic Principles John Sinclair (Tuscan Word Centre) Chapter 1 Chapter 2 Adding Linguistic Annotation Geoffrey Leech (Lancaster University) Chapter 2 Chapter 3 Metadata for Corpus Work Lou Burnard (University of Oxford) Chapter 3 Chapter 4 Character Encoding in Corpus Construction Anthony McEnery and Richard Xiao (Lancaster University) Chapter 4 Chapter 5 Spoken Language Corpora Paul Thompson (University of Reading) Chapter 5 Chapter 6 Archiving, Distribution and Preservation Martin Wynne (University of Oxford) Chapter 6 Appendix to chapter one: How to make a corpus John Sinclair (Tuscan Word Centre) Appendix to chapter one: How to make a corpus Bibliography