El'Manuscript-2010 Уфа 28.-31.10.20101 Захаров В.П. Тезаурус по корпусной лингвистике Санкт-Петербургский государственный университет vz1311@yandex.ru.

Презентация:

Advertisements

Похожие презентации

ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.

Advertisements

ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)

Лекция 2. Технология создания корпусов В.П. Захаров Санкт-Петербургский государственный университет.

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.

Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.

Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет.

ЗАДАЧИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ. 1.Что такое компьютерная лингвистика? 2. История. 3. Направления компьютерной лингвистики. 4. Заключение.

Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр.

"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.

Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.

Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.

Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.

1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.

Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет.

Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.

XXXIX Неделя науки СПбГПУ XXXIX Неделя науки СПбГПУ 2010 Визуальное редактирование запросов к поисковой системе с использованием онтологии WordNet А.Н.

Лекция 11. Использование корпусов в прикладной лингвистике и в других областях В.П. Захаров Санкт-Петербургский государственный университет.

Лекция 10. Лингвистические исследования. Использование корпусов В.П. Захаров Санкт-Петербургский государственный университет.

ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.

ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова.

Транксрипт:

El'Manuscript-2010 Уфа Захаров В.П. Тезаурус по корпусной лингвистике Санкт-Петербургский государственный университет

El'Manuscript-2010 Уфа Аннотация Корпусная лингвистика. Терминосистемы. Материал. Методы. Задачи. Результаты. Использование.

El'Manuscript-2010 Уфа Корпусная лингвистика Корпусная лингвистика – направление в лингвистике, занимающееся разработкой общих принципов построения и использования лингвистических корпусов с использованием компьютерных технологий. Корпусная лингвистика находится на пересечении задач теоретической и прикладной лингвистики. Разные уровни языка… Корпусы специальных текстов

El'Manuscript-2010 Уфа Терминосистемы Понятие термина Системность термина Понятие термина в корпусной лингвистике Спектр проблем корпусной лингвистики: определение корпусной лингвистики как особой области научной деятельности, противопоставление её другим направлениям лингвистики и языковой инженерии; определение корпуса в соотнесённости с другими типами лингвистических данных; различные аспекты создания и использования корпусов; процедуры, выполняемые при работе с корпусом (разметка, типы разметки, поиск в корпусе); типология корпусов; корпусы текстов с позиций разработчиков и пользователей; взаимодействие корпусов и корпусориентирован-ных лингвистических ресурсов; параллельные корпусы и т.д.

El'Manuscript-2010 Уфа Терминосистемы Структура термина Термины-словосочетания составляют от 60% до 70% специальной лексики Наиболее распространенным видом составных терминов в терминолексике (65% от общего числа составных термнив) является двух- или трехкомпонентное атрибутивное именное словосочетание наиболее распространенными синтаксическими моделями являются: Сущ. + Прил.Р + Сущ.Р – словарь иностранных слов, Прил. + Прил. + Сущ. – тепловая импульсная сварка, Прил. + Сущ. + Сущ.Р – автоматическая обработка текста, Сущ. + Сущ.Р + Сущ.Р – методы нанесения покрытий

El'Manuscript-2010 Уфа Предметная область «Корпусная лингвистика: литература Баранов А.Н. Введение в прикладную лингвистику. Серия "Новый лингвистический учебник". М.: Эдиториал УРРС Демьянков В.З. Англо-русские термины по прикладной лингвистике и автоматической переработке текста. Вып. 2. Методы анализа текста // Тетради новых терминов М.: ВЦП, Захаров В.П. Корпусная лингвистика: Учебно-методическое пособие. – СПб.: СПбГУ, – 48 с. Лингвистический энциклопедический словарь. М.: Сов. Энциклопедия, Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. - М., Леонтьева Н.Н. Автоматическое понимание текстов: Cистемы, модели, ресурсы. М., Прикладное языкознание. Учебник (ред. А.С.Герд). СПб., Языкознание. Информационно-поисковый тезаурус ИНИОН РАН. – М., The Oxford handbook of computational linguistics // Mitkov Ruslan (ed.). N.Y.: Oxford university press, Backer P., Hardie A., McEnery T. A Glossary of Corpus Linguistics. Edinburgh University Press: Šimková M. Výberový slovník termínov z počítačovej a korpusovej lingvistiky URL: slovnik terminov/2006- simkova-vyberovy slovnik terminov.pdf slovnik terminov/2006- simkova-vyberovy slovnik terminov.pdf

El'Manuscript-2010 Уфа Глоссарий по корпусной лингвистике Corpus Linguistics A study of language that includes all processes related to processing, usage and analysis of written or spoken machine-readable corpora. Corpus linguistics is a relatively modern term used to refer to a methodology, which is based on examples of real life language use. At present, effectiveness and usefulness of corpus linguistics is closely related to the development of computer science. See McEnery and Wilson 1996; Aarts and Meijs 1990; Leech 1991; Svartvik Corpus Processing A general term used to refer to all processes related to annotation, presentation and analysis of corpora. See Aarts and Meijs 1990; McEnery and Wilson 1996: Ch. 2. Alignment A term is used to refer to the practice of defining explicit links between texts in a parallel corpus. Alignment is linking the elements (sentences, phrases or words) that are mutual translations of each other in parallel corpus. Sentence and word alignment (the term for performing this operation - aligner) may be performed with a high degree of accuracy automatically. See McEnery and Oakes 1996; McEnery and Wilson 1996: Ch. 2. Annotation …………………………………………………………………………………………….

El'Manuscript-2010 Уфа Методы Построение терминосистемы предметной области На первом, эмпирическом этапе лингвист с помощью специалиста данной области проводит логико-понятийный анализ ряда специальных текстов. На этом этапе необходимо выявить систему понятий и вскрыть связи и отношения между ними. На следующем, уже концептуальном этапе подбирается план выражения полученной модели.

El'Manuscript-2010 Уфа Словарная статья (англ.) Term\ reciprocate parallel corpus Trans\ двусторонний параллельный корпус Def\ Multilingual corpus which contains, for all languages included, original texts as well as their translations into all the languages included. Up\ multilingual corpus Down\ aligned reciprocate parallel corpus Co\ comparable corpus Co\ parallel corpus Cyt\ Sometimes reciprocate parallel corpora are set up, corpora containing authentic texts as well as translations in each of the languages involved. This allows double- checking translation equivalents…

El'Manuscript-2010 Уфа Методы Однако: с самого начала разработка понятий идет с помощью языковых средств и не может без них обойтись. Поэтому логично - обращение к корпусу Автоматизация процесса обработки корпусных данных

El'Manuscript-2010 Уфа Методы Отражение терминосистемы в текстах Специальный текст всегда представляет то или иное научное, техническое, отраслевое знание. С начала своего формирования специальное знание начинает проникать в семантику естественного языка. В специальном тексте происходит взаимодействие систем естественного языка с получившейся системой искусственного языка специального знания.

El'Manuscript-2010 Уфа Материал исследования: корпус по корпусной лингвистике Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных». СПб.: Труды международной конференции «Корпусная лингвистика – 2004». СПб.: Труды международной конференции «Корпусная лингвистика – 2006». СПб.: Труды международной конференции «Корпусная лингвистика – 2008». СПб.: Труды Международной конференции «MegaLing–2005»: Прикладная лингвистика в поиске новых путей. СПб.: Захаров В.П., Корпусная лингвистика. СПб., 2005; Национальный корпус русского языка… вып. 1-2 Статьи в журнале НТИ… Диссертации…

El'Manuscript-2010 Уфа Метаразметка корпуса Наряду с библиографическим описанием эксперты включают в число параметров статьи и наборы из 10 релевантных терминов-дескрипторов, позволяющих диагностировать тематическую принадлежность текста. Например: Статья: Е.Л. Алексеева, А.М. Лаврентьев, И.В. Азарова, Л.А. Захарова «Разметка корпуса древнерусских агиографических текстов» (КЛ 2004) Набор терминов-дескрипторов: агиографический, житие, русский, текст, корпус, электронный, рукопись, словоформа, представление, разметка

El'Manuscript-2010 Уфа Методы Автоматическая обработка текстов в исследовании терминологии Возможности компьютерных технологий ставят вопрос о возможности автоматической обработки текстов для решения различных терминологических задач. Автоматическое извлечение терминов из текстов … Можно выделить несколько основных подходов к выделению терминов: на основе шаблонов, на основе статистики встречаемости, на основе мер оценки устойчивости словосочетаний в специальных текстах Х(MI, t-score, Log-Likelihood, C-value, критерий χ2 и ряд других); комбинированные подходы.

El'Manuscript-2010 Уфа Задачи Многоаспектное исследование содержания и структуры текстов в корпусе, что предполагает решение ряда задач, среди которых: извлечение, анализ и систематизация терминологии корпусной лингвистики, классификация терминов в корпусе, разработка формальной онтологии по корпусной лингвистике, тематическая рубрикация текстов в корпусе, подготовка данных для компьютерного тезауруса по корпусной лингвистике.

El'Manuscript-2010 Уфа Извлечение терминологии корпусной лингвистики Частотные списки слов ТерминЧасть речиЧастота текстСущ1641 корпус Сущ 1233 язык Сущ 945 словарьСущ 640 разметкаСущ 331 контекстСущ 297 словоформа Сущ 207 неоднозначность Сущ 175 корпусныйПрил157 корпуснойПрил154 документСущ 117 критерий Сущ 114 пользовательСущ 114 словосочетаниеСущ 107 запрос Сущ 78 словоупотребление Сущ 74 сочетаемостьСущ 60 коллокация Сущ 38

El'Manuscript-2010 Уфа Выявление специфичной лексики См. «лексические маркеры» - А.Я. Шайкевич. Статистический словарь Достоевского. Слово Частота f(ipm) m(ipm) S=(f-m-1)/ m

El'Manuscript-2010 Уфа Извлечение терминологии корпусной лингвистики Частотные списки словосочетаний СловокомплексМодельЧастота корпус текстовС+Срд174 национальный корпусП+С93 база данныхС+Срд74 корпусная лингвистикаП+С74 машинный переводП+С59 корпус русского языкаС+Прд+Срд56 семантическая разметкаП+С54 лексическая единицаП+С43 морфологическая разметкаП+С43 предметная областьП+С42 семантический классП+С36 толковый словарьП+С36 разрешение неоднозначностиС+Срд35 корпусные данныеП+С31 разметка текстаС+Срд30

El'Manuscript-2010 Уфа Статистика по основным синтаксическим моделям П+С120 С+Срд 54 С+Прд+Срд 28 П+С+Срд 5 С+Срд+Срд 4

El'Manuscript-2010 Уфа Автоматическая кластеризация Структурирование наборов терминов-дескрипторов осуществлялось с помощью инструмента автоматической классификации лексики (АКЛ), разрабатываемого на кафедре математической лингвистики СПбГУ под руководством доц. О.А. Митрофановой. Основным принципом АКЛ является возможность определения содержательной близости лексических единиц при сопоставлении их синтагматических свойств. Программа АКЛ, подготовленная П.В. Паничевой на языке Python, предусматривает: предварительную обработку текстов, представление множества контекстов употребления исследуемых лексем как точек или векторов дистрибуций в N-мерном пространстве, вычисление семантических расстояний между исследуемыми лексемами, кластерный анализ. Сформированные таким образом кластеры лексем допускают дальнейшую лингвистическую интерпретацию.

El'Manuscript-2010 Уфа Формирование классов условной эквивалентности Классы условной эквивалентности термина-дескриптора разметка РАЗМЕТКАCos ПРОСОДИЧЕСКИЙ0,375 БОЛЬШИНСТВО0,288 АНАФОРИЧЕСКИЙ0,288 ??ВВОДИТЬСЯ0,252 ДОКУМЕНТ0,251 ВЫДЕЛЕНИЕ0,250 МНОЖЕСТВО0,240 ИНТОНАЦИЯ0,226 РЕФЕРЕНТНЫЙ0,214 РЕАЛЬНО0,213 УДАРЕНИЕ0,212 РАЗ0,198 МЕСТОИМЕННЫЙ0,198 ИНОСТРАННЫЙ0,197 УПОТРЕБЛЯТЬСЯ0,196 НАЛИЧИЕ0,185 ДОСЛОВНО0,180 ОГОВОРКА0,167 ПОВТОР0,167

El'Manuscript-2010 Уфа Автоматическая кластеризация В ходе экспериментов производилась иерархическая кластеризация терминов-дескрипторов в наборах для каждой из статей в корпусе; в качестве меры расстояния использовался косинус угла между векторами дистрибуций (Cos). Результаты кластеризации выводятся в виде многоуровневого списка слов с помощью скобочной записи. Наряду с этим пользователь получает данные о частотности исследуемых лексем в обрабатываемом тексте и значения расстояний во всевозможных парах лексем из анализируемого набора. Например:

El'Manuscript-2010 Уфа Кластерная структура набора терминов- дескрипторов Статья: Е.Л. Алексеева, А.М. Лаврентьев, И.В. Азарова, Л.А. Захарова «Разметка корпуса древнерусских агиографических текстов» (КЛ 2004) Абсолютные частоты терминов-дескрипторов: агиографический (f = 4), житие (f = 13), русский (f = 7), текст (f = 47), корпус (f = 8), электронный (f = 8), рукопись (f = 15), словоформа (f = 15), представление (f = 7), разметка (f = 5) Кластерная структура набора терминов-дескрипторов: [корпус, разметка] Cos = 0,375 [агиографический, русский] Cos = 0,284 [житие, текст] Cos = 0,277 [[агиографический, русский] [житие, текст]] Cos = 0,259 [[корпус, разметка] [[агиографический, русский] [житие, текст]]] Cos = 0,251 [представление [[корпус, разметка] [[агиографический, русский] [житие, текст]]]] Cos = 0,219 [[представление [[корпус, разметка] [[агиографический, русский] [житие, текст]]]] электронный] Cos = 0,258 [рукопись [[представление [[корпус, разметка] [[агиографический, русский] [житие, текст]]]] электронный]] Cos = 0,171 [словоформа [рукопись [[представление [[корпус, разметка] [[агиографический, русский] [житие, текст]]]] электронный]]] Cos = 0,138

El'Manuscript-2010 Уфа Эксперименты с текстами с частичным совпадением наборов дескрипторов Обнаружены пары текстов, применительно к которым группы общих для них дескрипторов упорядочиваются единообразно: o[словарь [корпус, текст)]], o[частота [корпус, текст]], o[массив [данные [корпус, текст]]]. Несовпадающие результаты. o[формат [разметка [поиск [текст, корпус]]]] vs. [разметка [[корпус, текст] формат] [поиск]]. o[поиск [слово [текст, корпус]]] vs. [поиск [корпус [слово, текст]]].

El'Manuscript-2010 Уфа Результаты кластеризации Позволяют оценить диапазон понятийных категорий, релевантных для предметной области «Корпусная лингвистика». Вероятно, такие термины-дескрипторы, как корпус, текст, данные, разметка, тег, поиск, слово, лемма, словоформа, контекст и пр. представляют понятийное ядро указанной предметной области.

El'Manuscript-2010 Уфа Выделение онтологических категорий Всего было зарегистрировано 335 различных терминов- дескрипторов. В качестве представителей онтологических категорий были отобраны те из терминов-дескрипторов, которые: оказались релевантны не только для отдельных текстов, но для ПО в целом, обладают наибольшей частотой, попадают в ядра полученных кластеров, соответствуют исходным понятиям, выделенным на основе экспертных описаний ПО. Вероятно, такие термины-дескрипторы, как корпус, текст, данные, разметка, тег, поиск, слово, лемма, словоформа, контекст и пр. представляют понятийное ядро ПО.

El'Manuscript-2010 Уфа Фрагмент онтологии по корпусной лингвистике корпус данных корпус текстов тип корпуса разработка отбор данных цифровка данных разметка корпус-менеджер использование поиск запрос терминальная цепочка символов регулярное выражение лемма тег результат конкорданс контекст словоуказатель статистика

El'Manuscript-2010 Уфа Формальная онтология В отдельных полях формальной онтологии: даются общепринятые дефиниции терминов- дескрипторов, фиксируются синонимические отношения между терминами-дескрипторами (например, разметка, аннотация, аннотирование и пр.). Кроме того, каждая категория формальной онтологии имеет атрибут тексты. Этот атрибут необходим для того, чтобы формальная онтология могла быть использована для тематической рубрикации документов из русскоязычного корпуса текстов по корпусной лингвистике. В качестве экземпляров данного атрибута приведены библиографические сведения о тех статьях из корпуса, в которых встретились термины- дескрипторы, соответствующие онтологическим категориям.

El'Manuscript-2010 Уфа Использование тезауруса Лингвистика Информационный поиск Перевод Автоматическая классификация текстов

El'Manuscript-2010 Уфа Спасибо за внимание!