Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемЛариса Яшникова
1 Захаров В.П., Хохлова М.В. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке Санкт-Петербургский государственный университет
2 Аннотация Коллокации как устойчивые сочетания. Их роль в лексикографии. В докладе описаны результаты исследования по выявлению устойчивых сочетаний в русском языке на основе статистических методов на базе корпусов текстов. Цель – изучить возможности автоматических методов извлечения коллокаций, сравнить наиболее популярные меры ассоциации. Рассматриваются требования к программному обеспечению.
3 Понятие коллокации в лингвистике В широком смысле это комбинация двух или более слов, имеющих тенденцию к совместной встречаемости. Под коллокациями понимаются характерные, часто встречающиеся сочетания слов, «появление которых рядом друг с другом основывается на регулярном характере взаимного ожидания и задается не грамматическими, а чисто семантическими факторами» [Firth 1957]. Традиционные подходы к описанию понятия коллокации в целом можно свести к следующим: подход, берущий начало в работах британских контекстуалистов (Firth 1957; Firth 1968); семантико-синтаксический подход (Телия 1996; Cowie 1978; Hausmann 1979; Hausmann 1985 и др.); подход в рамках теории «Смысл Текст» (Мельчук 1974; Иорданская, Мельчук 2007).
4 Семантико-синтаксический подход Коллокации рассматриваются как подкласс более обширного класса несвободных словосочетаний, или фразем. Коллокацией называется словосочетание, в котором одно из слов является семантической доминантой, а второе выбирается в зависимости от него для передачи смысла всего выражения. Одним из ключевых свойств коллокаций является невозможность предсказания таких сочетаний на основе значений входящих в них компонентов (Телия, Мельчук, Борисова и др.). Коллокация – отношение между отдельными лексическими элементами в пределах синтаксической единицы (The Concise Oxford Dictionary of Linguistics ). Терминологические словосочетания Прагматемы
5 Статистический подход Коллокация – это привычное, традиционное сочетание слов в речи, звучащее правильно, естественно для носителей языка. Характерные, часто встречающиеся сочетания слов, появление которых рядом друг с другом основывается на регулярном характере взаимного ожидания. Показатель: частота совместной встречаемости
6 Меры ассоциации Показатели силы синтагматической связи между элементами словосочетаний. Исходные данные: частота совместной встречаемости, частоты слов или словоформ (node – ключевое слово, collocate – слово, встречающееся слева или справа от ключевого, коллокат). Меры ассоциации: MI (mutual information), t- score, z-score, log-likelihood, Odds, Dice, X 2 … (см. Корпуса как источники достоверных данных о частотах.
7 Мера MI (mutual information, взаимной информации) где MI = mutual information; n – ключевое слово; c – коллокат; f(n,c) – частота встречаемости ключевого слова n в паре с коллокатом с; f(n), f(c) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте); N – общее число словоформ в корпусе (тексте).
8 Мера t-score где n – ключевое слово; c – коллокат; f(n,c) – частота встречаемости ключевого слова n в паре с коллокатом с; f(n), f(c) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте); N – общее число словоформ в корпусе (тексте).
9 Log-likelihood где n – ключевое слово; c – коллокат; f(n,c) – частота встречаемости ключевого слова n в паре с коллокатом с; f(n), f(c) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте); N – общее число словоформ в корпусе (тексте).
10 База исследования Данные: существительные: власть, внимание, возможность, война, вопрос, дождь, жизнь, закон, любовь, место, мнение, мысль, ночь, ответ, помощь, радость, слово, случай, смысл; глаголы: быть, сказать, мочь, говорить, знать, стать, есть, хотеть, видеть, идти Инструменты: сервис на сайте университета г. Лидс (автор С.А. Шаров), включающий различные корпуса русского языка и различные меры ассоциации ( сервис биграмм на сайте АОТ ( Словари русского языка
11 Результаты для глагола «говорить» (левый контекст) (модель Adv+V), отсортированных по мере MI CollocationJoin t Freq1Rank MI MI score (7,08- 2,14) Rank LL LL score (1064,06- 2,96) Rank T- score T- score (22,79- 1,96) честно говорить , ,061011,96 постоянно говорить ,041440,59852,26 условно говорить ,538162,73912,11 обиженно говорить520846,46774,37166,52 грубо говорить ,306224,23932,10 умело говорить ,203312,26702,40 откровенно говорить ,125230,24942,09 собственно говорить ,002538,32991,97
12 Часть таблицы результатов для глагола «говорить» (левый контекст) (модель Adv+N), отсортированная по мере t-score CollocationJointFreq1Rank MI MI score (7,08- 2,14) Ran k LL LL score (1064,06- 2,96) Rank T- score T- score (22,79- 1,96) умоляюще говорить485154,82654,80122,79 Примири-тельно говорить ,43804,27217,96 скупо говорить ,12863,85415,46 ……………………… восхищенно говорить ,913411,91393,24 убедительно говорить ,76477,87443,01 неуверенно говорить ,25496,94453,01 смело говорить ,09565,87462,99 собственно говорить ,002538,32991,97
13 Частотные данные и меры ассоциации для глагола «говорить» (первое значение для леммы /второе значение курсивом для формы деепричастия). CollocationMI score LL score T score искренне говоря2,94/4.924,49/6.112,74/2.16 точно говоря2,64/5.2921,09/55.312,21/6.24 просто говоря2,19/5.6079,38/ ,02/11.75 откровенно говоря6,12/ ,24/ ,09/10.19 честно говоря7,08/ ,06/ ,96/22.33 объективно говоря4,24/6.824,37/11.224,16/2.43 образно говоря3,00/ ,07/ ,32/6.63 строго говоря4,55/ ,16/ ,08/12.05
14 Сравнение рангов коллокаций для глагола «говорить» (модель Adv+N), полученных по мере MI и вычисленных на основе двух корпусов русского языка (НКРЯ (117 млн. словоупотреблений) и газетный корпус (70 млн.)) Анализ коллокаций, полученных на этих двух корпусах, показывает, что грубо их можно разбить на две части: присутствующие в обоих корпусах (часто с близкими рангами) и присутствующие только в одном из них. Видимо, это говорит о принадлежности коллокатов, в данном случае, наречий, выданных только по одному из корпусов, к определенному жанру. И действительно, анализ контекстов употребления наречий пространно, модно, полусерьзно, фигурально в корпусе показывает преобладание художественных текстов. Но еще более разительную картину дает сравнений коллокаций, полученных на основе НКРЯ (117 млн. словоупотреблений) [1] и Интернет-корпус (188 млн.), где из 13 первых коллокаций из НКРЯ, отсортированных по мере MI, в последнем присутствует только одна.[1]
15 Анализ Ранги коллокаций, полученных на основе разных мер, не совпадают. Иногда статистические меры для поиска коллокаций следует применять к словоформам, а не к леммам. Зависимость состава и ранжирования списков коллокаций от типа корпуса; для разных жанров, возможно, следует применять разные меры. Разные меры по-разному реагируют на частоту слов, образующих коллокацию, и на частоту совместной встречаемости: MI – низкочастотные слова; T-score – высокочастотные сочетания.
16 Cравнение коллокаций, полученных автоматически на основе разных мер ассоциации, с данными различных словарей Материалом послужили коллокации 19 вышеперечисленных существительных Исследование проводилось на базе газетного корпуса на сайте Ун-та Лидс (78 млн. слов). Результаты запроса для каждого существительного сравнивались со словарными статьями, приведенными для этих существительных в Словаре коллокаций (Борисова 1995a), в толковых словарях русского языка: БАС-17 (Словарь современного русского языка ) и МАС (Словарь русского языка ) – и в Словаре синонимов и сходных по смыслу выражений (Абрамов 2006). Приведем некоторые результаты для слова война.
17 Значения мер ассоциации для коллокаций со словом «война», совпавших с коллокациями словаря Е.Г. Борисовой CollocationJointFreq1LL scoreMIT-score вспыхивать война ,296,202,21 идти война ,435,9612,72 кровопролитный война ,188,722,44 разражаться война ,947,502,98
18 Мера MI Всего было найдено Из них: 68 присутствуют в двух или более словарях; 73 только в словаре Борисовой; 27 только в словаре МАС; 13 только в словаре синонимов; 9 только в словаре БАС (нов.); 25 только в словаре БАС (ст.); Значения меры MI оказались наибольшими для коллокаций, найденных только в МАС, а также найденных в двух или более словарях.
19 Графики На представленном ниже графике следующими цветами обозначены: красным – сочетания, зафиксированные только в словаре коллокаций Е.Г. Борисовой; синим – сочетания, зафиксированные только в МАС; зеленым – сочетания, зафиксированные только в БАС (нов. изд.); оранжевым – сочетания, зафиксированные только в БАС (ст. изд.); темно-фиолетовым – сочетания, зафиксированные только в словаре синонимов; коричневым – сочетания, зафиксированные по крайней мере в двух из вышеперечисленных словарей; серым – прочие сочетания, выделенные согласно рассматриваемой мере. Ось ординат – значения рассматриваемой меры, ось абсцисс – ранги выделенных согласно этой мере сочетаний (коллокаций).
20 Мера MI
21 MI: БАС-17 (ранги 2, 8, 13, 34, 44), Борисова (12, 18, 38, 41)
22 Коллигации Коллигации – это коллокации с учетом грамматических отношений между элементами коллокаций Colligation is a type of collocation, but where a lexical item is linked to a grammatical one. Surprising, amazing and astonishing are nearly synonymous. We can say it is astonishing/surprising/amazing, but we tend to say it is not surprising and not the others- surprising colligates with the negative.collocation synonymous Примеры формул: V + Adv V + N Adv + V V + V
23 Sketch Engine Типичные словосочетания: синтаксис, накладывающий ограничение на сочетаемость слов в языке; вероятностные закономерности. Лексикографическая система: Oxford University Press; Cambridge University Press; Collins, Macmillan.
24 Лексико-синтаксические шаблоны
25 Выводы (1) Сравнении со словарями: тенденция: чем меньше значение меры, тем больше вероятность, что эти словосочетания не зафиксированы как устойчивые. Т.е., статистические меры ассоциации достаточно хорошо выявляют реально существующие семантико-синтагматические связи. Высокоранговые коллокации являются кандидатами на включение. Анализ различных мер ассоциации: мера MI, возможно, дает наилучшие усредненные результаты. Необходимо задавать список стоп-слов, чтобы «отбросить» самые частотные слова, сочетания с которыми неизменно оказываются вверху таблицы: предлоги, местоимения или союзы.
26 Выводы (2) Дополнительные возможности: Возможность объединения разных мер, например, ввести величину, равную сумме их рангов. Учитывать в статистических мерах при поиске коллокаций леммы или словоформы? Разрывные коллокации Меры ассоциации для 3-грамм Следует принимать во внимание структурные синтаксические формулы
27 Требования к программному инструментарию уметь находить разрывные коллокации со свободным порядком; искать коллокаты не только по леммам, но и по словоформам; искать коллокаты для гнезда опорных однокоренных слов; уметь варьировать размер окна; искать коллокации n-граммы; обработка знаков препинания и служебных слов, имен собственных и т.п.; поиск и выдача коллигаций; гибкие выходные интерфейсы …………………
28 Тоже коллокация, она же прагматема Спасибо за внимание!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.