Частотно-основанный подход к языковой динамике Соловьев В.Д. Казанский федеральный университет.

Презентация:



Advertisements
Похожие презентации
Семинар Machine Learning рук. проф.: Е.Л. Столов, В.Д. Соловьев Учебник Бишопа us/um/people/cmbishop/prml/
Advertisements

Отражение целевой тематики в публикациях и электронных препринтах "ЛЕОТЕСТ – 2011" "Электромагнитные и акустические методы неразрушающего контроля материалов.
Электронный словарь ABBYY Lingvo. ABBYY Lingvo – электронный словарь, который предоставляет самую полную и достоверную словарную базу на 6 языках: русском,
Мир словарей и мир в словарях Направление «Русский язык»
Технологія інформометричних досліджень матеріалів конференцій (на прикладі конференцій "Крим-2005" і "Крим-2010" Кузнецов Олександр Юрійович, Кузнецов.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Методы лингвистического анализа. методология, метод, методика Пополнять список методов исследования языка можно до бесконечности. Арнольд, И.В. Основы.
Электронные корпуса Корпусная лингвистика. Корпусная лингвистика ? Корпусная лингвистика - наука, занимающаяся разработкой общих принципов построения.
Частные методы, входящие в контекстный анализ. Апресян,Ю.Д. Дистрибутивный анализ // Лингвистический энциклопедический словарь. - М., 1990: 137 – 138.
1 Российский индекс научного цитирования и информационно-аналитическая система SCIENCE INDEX. Новые возможности для авторов, издателей и научных организаций.
Физический эксперимент в основной школе в основной школе.
Формальное представление лексических отношений русских глаголов Магистерская диссертация Галушко Надежды Леонидовны (филологический факультет, кафедра.
Глушкин Александр Представляет. Графические и табличные информационные модели Презентация.
Тема: Выполнила:. Актуальность работы: Анализ общественно-политических фразеологизмов, функционирующих в современном политическом дискурсе и характеризующихся.
Инструменты ИКТ в обучении лексике Web based Concordancers and other tools for Vocabulary development Москва, 2010 Наталья Катасонова.
Михайлова Виктория, 141 группа, 2011 год. Информационная технология решения задачи с помощью компьютера: основная технологическая цепочка. Существует.
ИНФОРМАЦИОННАЯ ЧУВСТВИТЕЛЬНОСТЬ КОМПЬЮТЕРНЫХ АЛГОРИТМОВ И ЕЁ КОЛИЧЕСТВЕННЫЕ МЕРЫ д.т.н., профессор М.В. Ульянов Кафедра «Управление разработкой программного.
Сочинение на лингвистическую тему Готовимся К ГИА.
Производная и дифференциал.. Производные высших порядков. n-ой производной (или производной n-го порядка) функции f(x) в точке х называется производная.
MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий.
Транксрипт:

Частотно-основанный подход к языковой динамике Соловьев В.Д. Казанский федеральный университет

Google Books & Ngram Viewer Google Books – хорошо известная электронная библиотека, содержащая 15 миллионов книг (12% всех опубликованных книг) Для подсчета частоты слов выбрано подмножество из 5 миллионов книг, содержащих более 500 миллиардов (!) слов, в том числе, русскоязычная часть – более 35 миллиардов слов (это в 70 раз больше, чем в НКРЯ) Реализован удобный интерфейс (Ngram Viewer, 2010), предоставляющий статистическую информацию в виде графиков Во вторую версию Ngram Viewer (2013) включена морфологическая и синтаксическая информация

Преимущества Google Books Ngram Viewer Колоссальный объем Многоязычность Диахроничность

Culturomics Статья в январском номере Science за 2011: Quantitative Analysis of Culture Using Millions of Digitized Books Соловьев В.Д. Частотность как объект корпусных исследований. Корпусная лингвистика Бочкарев В.В., грант РФФИ

Примеры исследований частотности с Ngram Viewer Уточнение закона Ципфа Уточнение закона Хипса Скорость эволюции лексики языка Динамика эмоций Динамика черт характера

Закон Ципфа

Закон Ципфа

Точка перегиба

Динамика точки перегиба

Закон Хипса

Уточнение закона Хипса – зависимость от размера корпуса

Эволюция лексики языка Ядро лексики – список Сводеша – эволюционирует с примерно постоянной скоростью Ядро грамматики – тоже с постоянной скоростью (Wichmann, 2009) А вся лексика? Учитывая не только изменение состава лексикона, но и изменение частот слов (употребимости)

Измерение скорости эволюции лексики языка Нормированная скорость изменения лексического состава рассчитывается по формуле: где T - интервал времени (10 лет), D - значение метрики Кульбака-Лейблера для распределений частот слов в годы t и t +T, H - энтропия частотного распределения.

Скорости эволюции всей лексики языка: английский

Динамика расстояния между лексикой языков: британский и американский

Динамика лексикона: выводы В целом лексика меняется с постоянной скоростью Заметно ускорение изменений во время войн и в последние 10 лет Расхождение диалектов английского языка сменилось в середине 20 века их сближением

Динамика эмоций Базовые эмоции: anger, fear, disgust, sadness, joy, surprise Суммирование частот слов в синонимическом ряду. Синонимический ряд для anger в английском: anger, rage, fury.

Частота эмотивной лексики в английском

Частота эмотивной лексики в русском

Динамика эмоций: выводы Уменьшение частоты в 2-3 раза за последние 2 века Зависимость от социальных потрясений (русский +, английский -) Фиксированный порядок эмоций по частоте для разных языков: удовольствие, страх, печаль, гнев

Черты характера в русском Русский семантический словарь (ред. Шведова Н.Ю.), т.3, 2003 Более 500 слов, разбитых на 21 семантическое поле

Динамика черт характера

Человек

Заключение Появившиеся в последние годы большие и сверхбольшие корпусы текстов создают принципиально новые возможности для исследования языка, культуры, общества Диахронические корпусы позволяют исследовать процессы развития. Одним из важнейших динамических параметров является частотность слов и конструкций Обнаруживаются новые эффекты, возникают новые постановки задач Возникла новая область исследований!

Благодарю за внимание!