Частотные словари. Частотный словарь, вид словаря (обычно одноязычного), в котором лексические единицы характеризуются с точки зрения степени их употребительности.

Презентация:



Advertisements
Похожие презентации
ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
Advertisements

Биостатистика: определение основной тенденции и дисперсии в условиях медицинской лабораторииииии.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Статистические оценки семантических и других лингвистических свойств слов.
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Слово Лексемы и словоформы. Проблема слова «слово» Что называется словом в естественном языке? Самые разные вещи: «В этом стихотворении ровно сто слов»
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.
Экзаменационная работа (OГЭ) по английскому языку
Выпускная работа « Основы информационных технологий » Тема : « Структурно - семантические параметры художественной синонимии как составляющие идиостиля.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
been book a an the this that my your his her a an the this that my your his her want going to have has am are is am are is will did can NOT ? ? I we you.
Применение семантического метаязыка в процессе овладения иноязычной лексикой.
ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ГЕОЛОГИИ Лекция 3 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.
Работа учащегося 7Б класса Толгского Андрея. Каждое натуральное число, больше единицы, делится, по крайней мере, на два числа: на 1 и на само себя. Если.
Итоги диагностической работы 1 по русскому языку (15 октября 2009 год) Участвовало1950 классов.
ЦИФРЫ ОДИН 11 ДВА 2 ТРИ 3 ЧЕТЫРЕ 4 ПЯТЬ 5 ШЕСТЬ 6.
Обработка и представление результатов измерений. Оценка случайной погрешности измерений Полученные при непосредственном измерении величины неизбежно содержат.
Транксрипт:

Частотные словари

Частотный словарь, вид словаря (обычно одноязычного), в котором лексические единицы характеризуются с точки зрения степени их употребительности в совокупности текстов, представительных либо для языка в целом, либо для отдельного функционального стиля, либо для одного автора.словарястиля

Частотные словари Информацию о каких словах следует включать? Как оценивать информацию о частотности слова, полученную на материале конкретного корпуса? Как выделять значимые слова?

Частотные словари F – частота нормированная частота где N число исследованных слов текстаN В большинстве Частотный словарь приводятся и абсолютные, и относительные характеристики.

Частотное поведение слова ipm, wpm – количество употреблений на миллион – стандартное представление частоты токена или леммы ( см.), вычисляемое относительно условного корпуса в миллион единиц независимо от объема реального корпуса ipm(x)=freq(x)* /corp, – где freq(x) – частота единицы в корпусе, – а corp – объем реального корпуса.

ОПРЕДЕЛЕНИЯ МОДЕЛИ «РАНГ-ЧАСТОТА» Ранг r Слово W(r) Частота f(r) 1W(1)f(1) 2W(2)f(2) … rW(r)f(r) Пример: Ранг r Слово W(r) Частота f(r) 1the245 2of136 3terms98 4to81 5a65 6and61 7in55 8we52...…… Позиция в частотном спектре: низкоранговое (высокочастотное) vs. низкочастотное

Функции частотных словарей изучение иностранного языка (для чтения 2% слов могут быть незнакомы, 1000 наиболее частотных слов – без контекста) усовершенствование различных кодовых систем системы, основанные на статистических методах поиска информации, кластеризации документов и т.п. изучение словаря отдельных литературных памятников или авторов на основе сведений о частотах употребления слов и словосочетаний лексикографические исследования (отношения внутри семантического поля, выделение устойчивых словосочетаний) контент-анализ

Примеры частотных словарей Иоссельсон Г. [Josselson, H.] Словарь русского языка. Детройт, (Josselson Н. Н. The Russian word count... Detroit, 1953). Объем словника составляет 1700 слов. Штейнфельдт Э. А. Частотный словарь современного русского литературного языка. Таллин, (2 500 наиболее употребительных слов) Частотный словарь общенаучной лексики / Под общ. ред. Е. М. Степановой. М., Грузберг А. А. Частотный словарь русского языка второй половины XVI - начала XVII века. Пермь, Оливерус Зденек Ф. Морфемы русского языка: Частотный словарь. Praha, 1976.

Примеры частотных словарей Частотный словарь русского языка: Около слов / Под ред. Л. Н. Засориной. М., (обработка средствами вычислительной техники 1 млн словоупотреблений ( слов)) Лённгрен Л. Частотный словарь современного русского языка. Uppsala, Ляшевская, Шаров. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.

Примеры частотных словарей Английский: Francis W. Kučera, H. Frequency Analysis of English Usage. Boston John B. Carroll, Peter Davies, & Barry Richman. The American Heritage Word Frequency Book Mark Davies, Dee Gardner A Frequency Dictionary of American English: Word Sketches, Collocates, and Thematic Lists. published by Routledge Routledge

Примеры частотных словарей Для русского языка было разработано несколько частотных словарей. Пионером был словарь Г. Йоссельсона, изданный в 1953 году в Детройте на материале языка по преимуществу дореволюционной России. Словари Э.А. Штейнфельд (1963), Л.Н. Засориной (1977), Л. Леннгрена (1993) и др. были созданы на основе относительно небольших коллекций текстов (400 тысяч - 1 миллион слов) и в большой степени отражают специфику русского языка советского периода: частоты слов товарищ и партия в них сопоставимы со служебными словами, а слово расческа отсутствует. Существуют также специализированные словари, в частности, словарь Е.М. Степановой (1976), посвященный общенаучной лексике. Отдельную отрасль статистических словарей составляют словари языка Пушкина, Достоевского, Грибоедова, Цветаевой (Виноградов , Шайкевич и др. 2003, Поляков 1999, Белякова и др. 1996), которые полностью описывают язык данного писателя.

50 самых частотных слов в английском языке the det be v of prep and conj a det in prep to infinitive-marker have v it pron to prep for prep i pron that conj you pron he pron on prep with prep do v at prep by prep not adv this det but conj from prep they pron his det that det she pron or conj which det as conj we pron an det say v will modal would modal can modal if conj their det go v what det there pron all det get v her det make v who pron as prep out adv up adv see v know v time n take v the det be v of prep and conj a det in prep to infinitive-marker have v it pron to prep for prep i pron that conj you pron he pron on prep with prep do v at prep by prep not adv this det but conj from prep they pron his det that det she pron or conj which det as conj we pron an det say v will modal would modal can modal if conj their det go v what det there pron the det be v of prep and conj a det in prep to infinitive-marker have v it pron to prep for prep i pron that conj you pron he pron on prep with prep do v at prep by prep not adv this det but conj from prep they pron his det that det she pron or conj which det as conj we pron an det say v will modal would modal can modal if conj their det go v what det there pron

Некоторые принципы при составлении частотных словарей Достоверность указанной частоты Частоты слов, полученные по выборке, должны отличаться от частот слов, существующих в совокупности, не более чем на заданную величину относительной ошибки., N – объем выборки, δ - заданная относительная ошибка, p – частота, z p – константа Пример: словарь Торндайка и Лорджа – указывали пределы p p

Сравнительная частота слов по частотным словарям ЛеммаЛеннгренЗасоринаШтейнф.НКРЯИнтернет власть думать загрязнение задача изучение любить милый

Частотные словари. Проблемы Если слово встретилось в тексте один раз, то при нормальном распределении это не влияет на вероятность его употребления там во второй раз. В реальности это не так. Каждый текст имеет некоторую собственную тему, слова которой в этом тексте будут употребляться намного чаще среднего. В тексте про хоббитов слово хоббит будет употребляться так же часто, как и многие служебные слова. В результате частотный список, построенный на основе корпуса, отражает специфику тех текстов, которые попали в него при его составлении.

Частотные словари. Проблемы Корпус большего размера, отражающий большее количество тем и функциональных стилей (корпус типа BNC или НКРЯ), – обеспечивает хорошую надежность для наиболее частотных элементов. Но: дальнейшее увеличение объема текстов в ущерб их разнообразию, например, проекты создания Гига-корпусов английского и китайского языков, содержащих более миллиарда словоупотреблений новостных текстов, Cieri & Liberman 2002 – может приводить к меньшей надежности частотного списка на таких корпусах за счет сдвига их словаря в сторону новостной лексики.

Частотные словари. Значимая лексика Меры распространенности Задача частотного словаря: не просто ранжировать слова по их частоте в отдельном корпусе, но и определить лексическое ядро языка, необходимо отделить слова, часто встречающиеся во многих текстах, от тех, чье лексическое поведение подобно словам Норьега или хоббит, и которые случайно оказались в той или иной позиции частотного списка.

Частотные словари. Значимая лексика Меры распространенности коэффициент D, введенный А. Жуйаном (Juilland et al. 1970), который принимает во внимание как число документов, в которых встречается слово, так и его относительную частоту в этих документах: где μ – средняя частота слова по всему корпусу, σ – среднее квадратичное отклонение этой частоты на отдельных документах, n – число документов, в которых встречается это слово. Значение D у слов, встречающихся в большинстве документов, близко к 100, а у слов, часто встречающихся лишь в небольшом числе документов, близко к 0. [Juliand et al. 1977]

Частотные словари. Значимая лексика Меры распространенности показатель DP («deviation of proportions», «отклонение пропорций») он определяет отклонение от ожидаемой величины и состоит в измерении сравниваемых частей корпуса, а также последующем вычислении разницы между ожидаемым и реальным распределением слова, которое затем делится на два. DP, приближающееся к нулю означает полностью однородное распределение, а равное единице – ситуацию, когда слово встречается лишь в одной части корпуса. [Gries 2008]

Частотные словари. Значимая лексика Меры распространенности формула для измерения средней уменьшенной частоты («average reduced frequency», ARF) В данном случае v – длина одной части, а за d взято расстояние между двумя словоформами лексемы в корпусе. d i = n i – n i-1 n - позиция нужных слов, f - количество частей [Savický et Hlavačová 2002]

«Значимая» лексика. Меры распространенности Коэффициент D слова жуткий, специфический и сырье имеют примерно равную частоту (21 употребление на миллион слов), но при этом коэффициент D у специфический - 66, сырье - 18, а у жуткий - 78, что означает, что последнее слово значимо для большего числа предметных областей и (при прочих равных условиях) имеет большие шансы на место в неспециализированном словаре.

«Значимая» лексика Меры распространенности Частотные словари функциональных стилей составлены на основе подкорпусов художественной литературы, публицистики, другой нехудожественной литературы и устной речи. В список включены самых частотных лемм этих подкорпусов. Список наиболее типичных лемм для каждого типа текстов был выделен на основе сравнения частоты лемм в таких текстах и в остальном корпусе. В качестве метрики сравнения был использован критерий отношения правдоподобия (log-likelihood), вычисляемый на основе следующей матрицы: ПодкорпусДругие текстыВесь корпус Частотааbа+b Размерсdc+d

Объем выборки Ошибка Словарь объем выборки объем словника количество слов, частота которых подсчитана с δ0.3 Элдридж ~ 100 Торндайк ~ Браун и др ~ Иоссельсон ~ Гарсия Ос ~ 1 100

Пример 1. Лексема Частота (ШЛ) Коэф. D (ШЛ) Частота (Засорина ) Частота (Лич) Коэф. D (Лич) добрый , , 0.96 злой жестокий смелый храбрый ловкий верный богатый бедный , , 0.96 глухой слепой голый живой

Пример 2. Контент-анализ

Частота лексемы Информационный поиск (индексирование документа, поиск документа, близкого (наиболее релевантного) запросу); Компьютерная лексикография (выделение «значимой» лексики, выделение коллокаций (MWE), разрешение семантической неоднозначности (WSD)); грамматическая разметка (снятие грамматической омонимии)