Олег Волков (volkovolek@gmail.com), ВШЭ, 25.11.2014volkovolek@gmail.com.

Презентация:



Advertisements
Похожие презентации
Введение Задачи с параметрами давно вошли в практику вступительных экзаменов по математике ведущих учебных заведений Задачи с параметрами давно вошли.
Advertisements

Графический метод решения.Изучение многих физических процессов и геометрических закономерностей часто приводит к решению задач с параметрами. Некоторые.
Сложение и вычитание дробей. Дроби это обычные числа, их тоже можно складывать и вычитать. Но из-за того, что в них присутствует знаменатель, здесь требуются.
Организация научно- исследовательской работы школьников Формы научно- исследовательской работы.
Теория графов Основные определения. Задание графов Графический способ – Привести пример графического задания графа, состоящего из вершин А, В и С, связанных.
МОДЕЛИРОВАНИЕ И ФОРМАЛИЗАЦИЯ Бобкова Татьяна Александровна учитель информатики МАОУ «МСОШ 16» 1.
Основные этапы моделирования. Моделирование – исследование объектов путем построения и изучения их моделей. Моделирование – творческий процесс, и поэтому.
1 Работу выполнил ученик 11 класса Афанасьев Алексей.
МОУ « Средняя общеобразовательная школа 14 с углубленным изучением отдельных предметов » авт. Кудимова Н. В.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Принятие решений в условиях риска Методы принятия решений в условиях риска разрабатываются и обосновываются в рамках так называемой теории статистических.
Применение генетических алгоритмов для генерации тестов к олимпиадным задачам по программированию Буздалов М.В., СПбГУ ИТМО.
ПОДГОТОВИЛА УЧЕНИЦА 9-В КЛАССА МБОУ-СОШ 4 ФАТЕЕВА МАРИЯ Моделирование как метод познания мира.
Моделирование – исследование объектов путем построения и изучения их моделей. Моделирование – творческий процесс, и поэтому заключить его в формальные.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Автор: Вельдер С. Э., аспирант Оптимальные укладки графов в пространстве и их приложения к задаче выполнимости СПбГУ ИТМО, кафедра компьютерных технологий.
Модель - случайная величина. Случайная величина (СВ) - это величина, которая в результате опыта может принять то или иное значение, причем заранее не.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
«Метод мажорант» Работа учащихся 11 «А» класса МОУ «Гимназия 5» Барышникова Александра, Барышниковой Виктории Научный руководитель: учитель математики.
Транксрипт:

Олег Волков ВШЭ,

Генеральная совокупность (population) Что является генеральной совокупностью для языковой выборки ? Репрезентативность (representativeness) Должна ли языковая выборка быть репрезентативна ? Объём выборки Какой объём должен быть у языковой выборки и как её вообще создать ?

Обзор общих проблем, связанных с языковыми выборками Определение помех (bias), вызывающих нерепрезентативность выборки Обзор подходов к выделению языковых выборок Предложение собственного метода, основанного на критерии разнородности (Diversity Value, DV)

Примерно у 2/3 языков нет нормального ( или хоть какого - то ) грамматического описания. 85% этих языков может умереть к концу века. Большое количество языков либо вымерло, либо кардинально изменилось. Расчёт : язык возник примерно лет назад, в среднем – около 6000 языков одновременно, язык изменяется каждые 1000 лет : всего исчезло около языков. Из них нам доступны данные около 500. Что же является в таком случае генеральной совокупностью ?

В некоторых случаях данные письменных мёртвых языков указывают на то, что ничего существенно не изменилось. Однако таких данных мало, и они не очень древние Но явно в существующих сейчас языках не проявляется всё языковое разнообразие, которое когда - либо было на планете ( кликсы ) Можно ли делать утверждения о каких - то универсалиях или о каком - то предпочтительном значении параметра насчёт давно вымерших языков ? ( порядок слов :

Проблему, как кажется, никак не решить У нас есть больше прав говорить о разнообразии ( хотя большую часть вариантов мы, возможно, не сможем наблюдать ), чем об универсалиях

Нужна ли нам одна выборка на все случаи жизни ? Или для каждого исследования нужна своя выборка ? Плюсы универсальной выборки : удобнее изучать корреляцию между параметрами, удобнее работать с языковыми данными ( можно ограничиться определёнными языками ) Минусы универсальной выборки : для ответа на разные вопросы нужны разные выборки, объём и структура выборки зависят от изучаемого параметра ; при использовании разными исследователями разных выборок проще обнаружить какие - то редкости и нетипичные случаи

Баккер выделяет два типа : probability sample и variety sample. Первый тип – скорее про процентное распределение в генеральной совокупности, второй – про разнообразие Типы различаются стабильностью и изученностью рассматриваемого параметра

Для наиболее изученных параметров Для наиболее диахронически стабильных параметров К примеру, вершинное / зависимостное маркирование – более стабильный параметр, чем порядок составляющих. Перфект быстрее эволюционирует, чем плюсквамперфект. И т. д. Объём – от 50 до 200 языков ( Предлоги / послелоги

Для неисследованных параметров ( а также для наименее стабильных ) Исследователь расширяет выборку, пока не новые значения параметра не прекращают появляться Размер жёстко не задан ( можно определить минимальный размер ), чем больше, тем лучше Чем больше вариантов значений параметра, тем больше должна быть выборка ( Род у личных местоимений

Исследователь использует доступные, проверенные данные, пользуется наиболее полными и подробными описаниями, не ставя перед собой цель построить репрезентативную выборку Это не всегда плохо, зависит от исследуемого параметра

Какие помехи мешают нам построить репрезентативную выборку ? Bibliographic bias. Описано мало языков, все описания – по разным принципам, с разной полнотой. Genetic bias. Во многих выборках языки определённой языковой семьи представлены более полно, чем языки какой - либо другой семьи. Это особенно плохо для probability samples.

Areal bias. Одни ареалы представлены более полно, чем другие Typological bias. В выборке превалируют языки с определённым значением какого - либо параметра. Особенно портит картину при импликативных универсалиях Cultural bias. В языках с большим количеством носителей сложней найти какие - либо редкости, чем в экзотических языках

Bell 1978: выделил 478 генетических групп, не задал оптимальный объём выборки. Количество языков от группы в выборке должно быть пропорционально количеству групп Perkins 1980: генетика + культура, 50 языков Tomlin 1986: генетика + ареалы Dryer 1989: более глубокий генетический анализ + макро ареалы …

Видимо, единственный к настоящему моменту формализованный алгоритм построения выборок. Реализован в виде компьютерной программы Работает на основании любой классификации, выбранной пользователем

Минимальная выборка – по одному представителю каждой вершинной группы. Соответственно, входят все изоляты, если классификация генетическая Если число языков увеличивается, то для каждой группы считается её показатель разнородности (DV). Он зависит от количества промежуточных вершин и разветвлённости дерева

C k = C k-1 + (N k N k – 1 ) (MAX (k 1)) / MAX) C k – вклад (contribution) вершины уровня k в DV какой - либо вершины N k – количество вершин на уровне k MAX – максимальная глубина дерева C 0 ( верхний уровень ) = 0, ветвей в C 0 также 0 DV вершины = сумма вкладов всех её потомков

В соответствии с DV определяется количество языков определённой группы в выборке

Для какого типа выборок применим этот критерий ? Возможность использовать любую классификацию – это хорошо или плохо ? Зависимость состава выборки от количества промежуточных ветвей – это хорошо или плохо ? «Our data on the history of languages, on processes of language change and on their interaction with sociocultural conditions are not sufficient (or not sufficiently known) to adequately supply this model» [Bisang, duesseldorf.de/summerschool2002/Bisang2.PDF]

Нужно ли типологам зацикливаться на выборках ? Изучение языков идёт ступенчато : от описательного этапа к обобщительному. Дескриптивисты сменяются типологами, и т. д. На данном этапе развития лингвистики перспективная деятельность – анализ конкретных языковых данных с опорой на достижения типологов. В первую очередь интересны данные экзотических и малоизученных языков.

Одна из лингвистических универсалий Язык пирахан ( мурманские, Южная Америка ) [Everett 1986] – якобы отсутствие рекурсии Также минимальный инвентарь фонем, отсутствие числительных, местоимений