Захаров В.П., Хохлова М.В. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке Санкт-Петербургский государственный.

Презентация:



Advertisements
Похожие презентации
Лекция 10. Лингвистические исследования. Использование корпусов В.П. Захаров Санкт-Петербургский государственный университет.
Advertisements

Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Работа учащегося 7Б класса Толгского Андрея. Каждое натуральное число, больше единицы, делится, по крайней мере, на два числа: на 1 и на само себя. Если.
Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
РАСПРЕДЕЛЕНИЕ УЧАСТНИКОВ ККР-2011 ПО ТИПАМ ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЙ Тип ОУДоля учащихся в общем количестве участников ККР-2011 СОШ115/72% ООШ35/22% НОШ9/6.
Зачет по теме "Квадратные уравнения" Автор составитель: Попова Виктория Юрьевна, учитель математики высшей категории, заместитель директора МОУ гимназии.
О РЕЗУЛЬТАТАХ ПРОВЕДЕНИЯ НЕЗАВИСИМОЙ ОЦЕНКИ КАЧЕСТВА ОБУЧЕНИЯ В РАМКАХ ОЦП «Р АЗВИТИЕ ИНФОРМАЦИОННОГО ОБЩЕСТВА, ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ,
ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
Матемтааки ЕТ СТ 2 класс Шипилова Наталия Викторовна учитель начальных классов, ВКК Шипилова Наталия Викторовна учитель начальных классов, ВКК.
Учитель математики МОУ СОШ 36 Ковальчук Л.Л
ОДНОМЕРНЫЕ МАССИВЫ. РАБОТА С ЭЛЕМЕНТАМИ СТРУКТУРИРОВАННЫЕ ТИПЫ ДАННЫХ.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Урок повторения по теме: «Сила». Задание 1 Задание 2.
1 Знаток математики Тренажер Таблица умножения 2 класс Школа 21 века ®м®м.
Слово Лексемы и словоформы. Проблема слова «слово» Что называется словом в естественном языке? Самые разные вещи: «В этом стихотворении ровно сто слов»
Применение генетических алгоритмов для генерации числовых последовательностей, описывающих движение, на примере шага вперед человекоподобного робота Ю.К.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от
Лекция 11. Использование корпусов в прикладной лингвистике и в других областях В.П. Захаров Санкт-Петербургский государственный университет.
1 Знаток математики Тренажер Таблица умножения 3 класс Школа России Масько Любовь Георгиевна Муниципальное общеобразовательное учреждение средняя общеобразовательная.
Наибольшее и наименьшее значение. Пример 1 Петя и Вася поспорили, кто лучше прыгает в длину с места. Чтобы избежать случайности, они решили, что будут.
Транксрипт:

Захаров В.П., Хохлова М.В. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке Санкт-Петербургский государственный университет

Аннотация Коллокации как устойчивые сочетания. Их роль в лексикографии. В докладе описаны результаты исследования по выявлению устойчивых сочетаний в русском языке на основе статистических методов на базе корпусов текстов. Цель – изучить возможности автоматических методов извлечения коллокаций, сравнить наиболее популярные меры ассоциации. Рассматриваются требования к программному обеспечению.

Понятие коллокации в лингвистике В широком смысле это комбинация двух или более слов, имеющих тенденцию к совместной встречаемости. Под коллокациями понимаются характерные, часто встречающиеся сочетания слов, «появление которых рядом друг с другом основывается на регулярном характере взаимного ожидания и задается не грамматическими, а чисто семантическими факторами» [Firth 1957]. Традиционные подходы к описанию понятия коллокации в целом можно свести к следующим: подход, берущий начало в работах британских контекстуалистов (Firth 1957; Firth 1968); семантико-синтаксический подход (Телия 1996; Cowie 1978; Hausmann 1979; Hausmann 1985 и др.); подход в рамках теории «Смысл Текст» (Мельчук 1974; Иорданская, Мельчук 2007).

Семантико-синтаксический подход Коллокации рассматриваются как подкласс более обширного класса несвободных словосочетаний, или фразем. Коллокацией называется словосочетание, в котором одно из слов является семантической доминантой, а второе выбирается в зависимости от него для передачи смысла всего выражения. Одним из ключевых свойств коллокаций является невозможность предсказания таких сочетаний на основе значений входящих в них компонентов (Телия, Мельчук, Борисова и др.). Коллокация – отношение между отдельными лексическими элементами в пределах синтаксической единицы (The Concise Oxford Dictionary of Linguistics ). Терминологические словосочетания Прагматемы

Статистический подход Коллокация – это привычное, традиционное сочетание слов в речи, звучащее правильно, естественно для носителей языка. Характерные, часто встречающиеся сочетания слов, появление которых рядом друг с другом основывается на регулярном характере взаимного ожидания. Показатель: частота совместной встречаемости

Меры ассоциации Показатели силы синтагматической связи между элементами словосочетаний. Исходные данные: частота совместной встречаемости, частоты слов или словоформ (node – ключевое слово, collocate – слово, встречающееся слева или справа от ключевого, коллокат). Меры ассоциации: MI (mutual information), t- score, z-score, log-likelihood, Odds, Dice, X 2 … (см. Корпуса как источники достоверных данных о частотах.

Мера MI (mutual information, взаимной информации) где MI = mutual information; n – ключевое слово; c – коллокат; f(n,c) – частота встречаемости ключевого слова n в паре с коллокатом с; f(n), f(c) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте); N – общее число словоформ в корпусе (тексте).

Мера t-score где n – ключевое слово; c – коллокат; f(n,c) – частота встречаемости ключевого слова n в паре с коллокатом с; f(n), f(c) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте); N – общее число словоформ в корпусе (тексте).

Log-likelihood где n – ключевое слово; c – коллокат; f(n,c) – частота встречаемости ключевого слова n в паре с коллокатом с; f(n), f(c) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте); N – общее число словоформ в корпусе (тексте).

База исследования Данные: существительные: власть, внимание, возможность, война, вопрос, дождь, жизнь, закон, любовь, место, мнение, мысль, ночь, ответ, помощь, радость, слово, случай, смысл; глаголы: быть, сказать, мочь, говорить, знать, стать, есть, хотеть, видеть, идти Инструменты: сервис на сайте университета г. Лидс (автор С.А. Шаров), включающий различные корпуса русского языка и различные меры ассоциации ( сервис биграмм на сайте АОТ ( Словари русского языка

Результаты для глагола «говорить» (левый контекст) (модель Adv+V), отсортированных по мере MI CollocationJoin t Freq1Rank MI MI score (7,08- 2,14) Rank LL LL score (1064,06- 2,96) Rank T- score T- score (22,79- 1,96) честно говорить , ,061011,96 постоянно говорить ,041440,59852,26 условно говорить ,538162,73912,11 обиженно говорить520846,46774,37166,52 грубо говорить ,306224,23932,10 умело говорить ,203312,26702,40 откровенно говорить ,125230,24942,09 собственно говорить ,002538,32991,97

Часть таблицы результатов для глагола «говорить» (левый контекст) (модель Adv+N), отсортированная по мере t-score CollocationJointFreq1Rank MI MI score (7,08- 2,14) Ran k LL LL score (1064,06- 2,96) Rank T- score T- score (22,79- 1,96) умоляюще говорить485154,82654,80122,79 Примири-тельно говорить ,43804,27217,96 скупо говорить ,12863,85415,46 ……………………… восхищенно говорить ,913411,91393,24 убедительно говорить ,76477,87443,01 неуверенно говорить ,25496,94453,01 смело говорить ,09565,87462,99 собственно говорить ,002538,32991,97

Частотные данные и меры ассоциации для глагола «говорить» (первое значение для леммы /второе значение курсивом для формы деепричастия). CollocationMI score LL score T score искренне говоря2,94/4.924,49/6.112,74/2.16 точно говоря2,64/5.2921,09/55.312,21/6.24 просто говоря2,19/5.6079,38/ ,02/11.75 откровенно говоря6,12/ ,24/ ,09/10.19 честно говоря7,08/ ,06/ ,96/22.33 объективно говоря4,24/6.824,37/11.224,16/2.43 образно говоря3,00/ ,07/ ,32/6.63 строго говоря4,55/ ,16/ ,08/12.05

Сравнение рангов коллокаций для глагола «говорить» (модель Adv+N), полученных по мере MI и вычисленных на основе двух корпусов русского языка (НКРЯ (117 млн. словоупотреблений) и газетный корпус (70 млн.)) Анализ коллокаций, полученных на этих двух корпусах, показывает, что грубо их можно разбить на две части: присутствующие в обоих корпусах (часто с близкими рангами) и присутствующие только в одном из них. Видимо, это говорит о принадлежности коллокатов, в данном случае, наречий, выданных только по одному из корпусов, к определенному жанру. И действительно, анализ контекстов употребления наречий пространно, модно, полусерьзно, фигурально в корпусе показывает преобладание художественных текстов. Но еще более разительную картину дает сравнений коллокаций, полученных на основе НКРЯ (117 млн. словоупотреблений) [1] и Интернет-корпус (188 млн.), где из 13 первых коллокаций из НКРЯ, отсортированных по мере MI, в последнем присутствует только одна.[1]

Анализ Ранги коллокаций, полученных на основе разных мер, не совпадают. Иногда статистические меры для поиска коллокаций следует применять к словоформам, а не к леммам. Зависимость состава и ранжирования списков коллокаций от типа корпуса; для разных жанров, возможно, следует применять разные меры. Разные меры по-разному реагируют на частоту слов, образующих коллокацию, и на частоту совместной встречаемости: MI – низкочастотные слова; T-score – высокочастотные сочетания.

Cравнение коллокаций, полученных автоматически на основе разных мер ассоциации, с данными различных словарей Материалом послужили коллокации 19 вышеперечисленных существительных Исследование проводилось на базе газетного корпуса на сайте Ун-та Лидс (78 млн. слов). Результаты запроса для каждого существительного сравнивались со словарными статьями, приведенными для этих существительных в Словаре коллокаций (Борисова 1995a), в толковых словарях русского языка: БАС-17 (Словарь современного русского языка ) и МАС (Словарь русского языка ) – и в Словаре синонимов и сходных по смыслу выражений (Абрамов 2006). Приведем некоторые результаты для слова война.

Значения мер ассоциации для коллокаций со словом «война», совпавших с коллокациями словаря Е.Г. Борисовой CollocationJointFreq1LL scoreMIT-score вспыхивать война ,296,202,21 идти война ,435,9612,72 кровопролитный война ,188,722,44 разражаться война ,947,502,98

Мера MI Всего было найдено Из них: 68 присутствуют в двух или более словарях; 73 только в словаре Борисовой; 27 только в словаре МАС; 13 только в словаре синонимов; 9 только в словаре БАС (нов.); 25 только в словаре БАС (ст.); Значения меры MI оказались наибольшими для коллокаций, найденных только в МАС, а также найденных в двух или более словарях.

Графики На представленном ниже графике следующими цветами обозначены: красным – сочетания, зафиксированные только в словаре коллокаций Е.Г. Борисовой; синим – сочетания, зафиксированные только в МАС; зеленым – сочетания, зафиксированные только в БАС (нов. изд.); оранжевым – сочетания, зафиксированные только в БАС (ст. изд.); темно-фиолетовым – сочетания, зафиксированные только в словаре синонимов; коричневым – сочетания, зафиксированные по крайней мере в двух из вышеперечисленных словарей; серым – прочие сочетания, выделенные согласно рассматриваемой мере. Ось ординат – значения рассматриваемой меры, ось абсцисс – ранги выделенных согласно этой мере сочетаний (коллокаций).

Мера MI

MI: БАС-17 (ранги 2, 8, 13, 34, 44), Борисова (12, 18, 38, 41)

Коллигации Коллигации – это коллокации с учетом грамматических отношений между элементами коллокаций Colligation is a type of collocation, but where a lexical item is linked to a grammatical one. Surprising, amazing and astonishing are nearly synonymous. We can say it is astonishing/surprising/amazing, but we tend to say it is not surprising and not the others- surprising colligates with the negative.collocation synonymous Примеры формул: V + Adv V + N Adv + V V + V

Sketch Engine Типичные словосочетания: синтаксис, накладывающий ограничение на сочетаемость слов в языке; вероятностные закономерности. Лексикографическая система: Oxford University Press; Cambridge University Press; Collins, Macmillan.

Лексико-синтаксические шаблоны

Выводы (1) Сравнении со словарями: тенденция: чем меньше значение меры, тем больше вероятность, что эти словосочетания не зафиксированы как устойчивые. Т.е., статистические меры ассоциации достаточно хорошо выявляют реально существующие семантико-синтагматические связи. Высокоранговые коллокации являются кандидатами на включение. Анализ различных мер ассоциации: мера MI, возможно, дает наилучшие усредненные результаты. Необходимо задавать список стоп-слов, чтобы «отбросить» самые частотные слова, сочетания с которыми неизменно оказываются вверху таблицы: предлоги, местоимения или союзы.

Выводы (2) Дополнительные возможности: Возможность объединения разных мер, например, ввести величину, равную сумме их рангов. Учитывать в статистических мерах при поиске коллокаций леммы или словоформы? Разрывные коллокации Меры ассоциации для 3-грамм Следует принимать во внимание структурные синтаксические формулы

Требования к программному инструментарию уметь находить разрывные коллокации со свободным порядком; искать коллокаты не только по леммам, но и по словоформам; искать коллокаты для гнезда опорных однокоренных слов; уметь варьировать размер окна; искать коллокации n-граммы; обработка знаков препинания и служебных слов, имен собственных и т.п.; поиск и выдача коллигаций; гибкие выходные интерфейсы …………………

Тоже коллокация, она же прагматема Спасибо за внимание!