2015 1990 1 Модуль 8: Жизнь с ошибками Инструментарий для понимания и использования гражданским обществом данных о развитии: содействие принятию решений.

Презентация:



Advertisements
Похожие презентации
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Advertisements

1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Школьная форма Презентация для родительского собрания.
Типовые расчёты Растворы
Ребусы Свириденковой Лизы Ученицы 6 класса «А». 10.
Урок повторения по теме: «Сила». Задание 1 Задание 2.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Доверительный интервал и доверительная вероятность.
23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г. Лекция 9. Непрерывные распределения 9-1. Функция распределения 9-2. Плотность.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в.
СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.
1 Основы надежности ЛА Надежность сложных систем.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Обработка и представление результатов измерений. Оценка случайной погрешности измерений Полученные при непосредственном измерении величины неизбежно содержат.
В ЫБОРОЧНОЕ НАБЛЮДЕНИЕ. Под выборочным наблюдением понимается такое несплошное наблюдение, при котором статистическому обследованию (наблюдению ) подвергаются.
Michael Jackson
Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Масштаб 1 : 5000 Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Транксрипт:

Модуль 8: Жизнь с ошибками Инструментарий для понимания и использования гражданским обществом данных о развитии: содействие принятию решений в области достижения ЦРТ и их мониторингу

После изучения данного модуля вы будете: Понимать, что является причиной ошибок в показателях ЦРТПонимать, что является причиной ошибок в показателях ЦРТ Знать три типа ошибок в показателях ЦРТ и их отличияЗнать три типа ошибок в показателях ЦРТ и их отличия

Откуда появляются ошибки? Для расчета показателей ЦРТ используются данныеДля расчета показателей ЦРТ используются данные Данные содержат информацию о генеральной совокупности, и их собирают людиДанные содержат информацию о генеральной совокупности, и их собирают люди Любые недостатки при сборе информации и ее обработке ведут к ошибкам в показателях ЦРТЛюбые недостатки при сборе информации и ее обработке ведут к ошибкам в показателях ЦРТ

Типы ошибок Можно выделить три типа ошибок при расчете показателей ЦРТ (и других сводных показателей): Ошибки при расчетахОшибки при расчетах Систематические ошибкиСистематические ошибки Ошибки выборкиОшибки выборки

Ошибки в расчетах Ошибки, которые делаются при расчетах показателей ЦРТ или их компонентовОшибки, которые делаются при расчетах показателей ЦРТ или их компонентов В большинстве случаев их можно избежатьВ большинстве случаев их можно избежать Вероятность их возникновения снижается по мере автоматизации расчетовВероятность их возникновения снижается по мере автоматизации расчетов

Систематические ошибки Систематические ошибки – это ошибки, которые приводят к тому, что все измеряемые величины отклоняются от своих истинных значений в одном и том же направлении (в большую или меньшую сторону) Систематические ошибки – это ошибки, которые приводят к тому, что все измеряемые величины отклоняются от своих истинных значений в одном и том же направлении (в большую или меньшую сторону) Возникают, когда статистическая структура выборки отличается от структуры генеральной совокупностиВозникают, когда статистическая структура выборки отличается от структуры генеральной совокупности Всегда являются проблемой в развивающихся странах, когда показатели ЦРТ рассчитываются на основе административных данныхВсегда являются проблемой в развивающихся странах, когда показатели ЦРТ рассчитываются на основе административных данных Часто возникают, когда используются данные опросовЧасто возникают, когда используются данные опросов

Систематические ошибки (2) Выборочное среднее Выборочное среднее 1. Ошибка (мужчины) x x x x x 2. Ошибка (женщины) x x x x x 3. Нет ошибки x x x x x Ген. совокупность x Шкала измерения Шкала измерения

Ошибки выборки Могут трактоваться как различие между выборкой и генеральной совокупностью, на основе которой построена выборкаМогут трактоваться как различие между выборкой и генеральной совокупностью, на основе которой построена выборка Всегда присутствуют расчете показателей ЦРТ на основе выборочного обследованияВсегда присутствуют расчете показателей ЦРТ на основе выборочного обследования Как правило отсутствуют, когда расчеты сделаны на основе административных данных (если только они не собраны на основе выборки)Как правило отсутствуют, когда расчеты сделаны на основе административных данных (если только они не собраны на основе выборки) Отсутствуют при переписиОтсутствуют при переписи

Ошибки выборки (2) Выборочное среднее (мужчины) X (мужчины) X Значение для генеральной совокупности: X Шкала измерения Ошибка выборки

Совместное воздействие систематической ошибки и ошибки выборки Выборочное среднее x Значение для генеральной совокупности: X Шкала измерения систематическая ошибка Ошибка выборки

Ошибка выборки

Дозенландия: пример ошибки выборки Дозенландия – самая маленькая страна в мире, в которой только: 12 домохозяйств 12 домохозяйств каждое состоит из одного человека

Проблема Нужно оценить средний доход в дозенландских долларах на душу населения Как нам это сделать? 1.Провести перепись (истинное значение) 2. Использовать выборку – 4 домохозяйства 3. Использовать любые другие выборки любого размера

Данные переписи Глава домохозяйства (инициалы) Доходы (D$) WJK 4200 RNC 7500 MM 4700 JHR 6900 HRP 5900 KP 6400 IMW 4300 RDS 3100 DGN 4700 DC 4500 MGK 7000 DJP 6400 Сумма Средний

Выборка из 4 домохозяйств У правительства Дозеландии нет средств на перепись, поэтому решено сделать выборку на основе 4 домохозяйствУ правительства Дозеландии нет средств на перепись, поэтому решено сделать выборку на основе 4 домохозяйств Случайным образом отобраны домохозяйства WJK, MM, DC, DJ Случайным образом отобраны домохозяйства WJK, MM, DC, DJ Таким образом, в выборке доходы домохозяйств 4200, 4700, 4500, 7000 в дозеландских долларах (D$) Таким образом, в выборке доходы домохозяйств 4200, 4700, 4500, 7000 в дозеландских долларах (D$) Средний доход по выборке: ( )/4 = 5100 D$ Средний доход по выборке: ( )/4 = 5100 D$

Настоящая ошибка Поскольку мы провели гипотетическую перепись, мы знаем каково реальное значение среднего дохода, т.е. мы можем определить настоящую ошибку = (D$) Мы недооценили реальный доход на 7%

Объяснение Это несистематическая ошибка, поскольку выборка является случайной Это просто результат того, что выборка отличается от генеральной совокупностиЭто просто результат того, что выборка отличается от генеральной совокупности

Что же нам делать? 1.Использовать другую выборку (Например, увеличить размер, приблизив ее к реальному числу домохозяйств) 2. Использовать статистическую теорию, позволяющую оценивать ошибку выборки

n S С реднее для Дисперсия n S С реднее для Дисперсия средних средних Результаты использования всех возможных выборок Результаты использования всех возможных выборок n = размер выборки; S = число выборок размером n Все возможные размеры выборки n (от 1 до 12) из 12 домохозяйств

Какой можно сделать вывод? Если взять все возможные выборки, среднее из средних всегда будет одно и тоже и будет равно действительному среднему по генеральной совокупности (по всем домохозяйствам) Дисперсия уменьшается с ростом размеров выборки (n), чем больше размер выборки, тем более точная оценка

В чем же проблема? В реальной жизни мы можем использовать только одну выборкуВ реальной жизни мы можем использовать только одну выборку Т.е. мы не можем наблюдать, какие значения будут для каждой выборки размером n, и как они изменяются от выборки к выборкеТ.е. мы не можем наблюдать, какие значения будут для каждой выборки размером n, и как они изменяются от выборки к выборке Т.е. мы не можем измерить среднее или отклонение по всем выборкамТ.е. мы не можем измерить среднее или отклонение по всем выборкам

Вот решение! Мы можем измерять стандартную ошибку, используя одну выборкуМы можем измерять стандартную ошибку, используя одну выборку Это поможет нам определить, насколько наша выборка отличается от генеральной совокупностиЭто поможет нам определить, насколько наша выборка отличается от генеральной совокупности Рассмотрим выборку из 4 домохозяйств: 4200, 4700, 4500, Получаем: среднее = 5100среднее = 5100 стандартная ошибка = 524стандартная ошибка = % доверительный интервал = 5100 ± 1666 = [3434 to 6766]95% доверительный интервал = 5100 ± 1666 = [3434 to 6766]

Дизайн выборки Постройте выборку случайным образомПостройте выборку случайным образом Стратифицируйте выборку – сделайте независимые выборки внутри важных групп (страт) в генеральной совокупностиСтратифицируйте выборку – сделайте независимые выборки внутри важных групп (страт) в генеральной совокупности –Сокращается ошибка выборки с минимальными дополнительными издержками Постройте кластерную одно- или многошаговую выборку – выборка (или подвыборка) из целых групп (кластеров) генеральной совокупностиПостройте кластерную одно- или многошаговую выборку – выборка (или подвыборка) из целых групп (кластеров) генеральной совокупности –Увеличивает ошибку выборки, но сохраняет время и деньги

Статистическая теория на практике В статистических учебниках рассказывается, как:В статистических учебниках рассказывается, как: –производить сложный дизайн выборки –рассчитывать пропорции, отношения и иные сводные характеристики –строить доверительные интервалы Хотя теория более разнообразна, принципы, практика и интерпретация приблизительно такие же, как в нашем простом примереХотя теория более разнообразна, принципы, практика и интерпретация приблизительно такие же, как в нашем простом примере

СИСТЕМАТИЧЕСКАЯ ОШИБКА

Ошибка при формировании выборки из генеральной совокупности В ряде случаев ошибка возникает из-за того, что мы неправильно определяем целевую генеральную совокупность Пример: запись актов гражданского состояния Целевая группа: все умершие Используемая генеральная совокупность: городское население

Важна ли систематическая ошибка? Возникновение систематической ошибки связано с различиями между характеристиками людей, включенных в генеральную совокупность для сбора данных, ихарактеристиками людей, включенных в генеральную совокупность для сбора данных, и характеристиками невключенных людейхарактеристиками невключенных людей Пример: является ли младенческая смертность более распространенной в городских или сельских регионах?

Обычные источники систематической ошибки Сознательный отборСознательный отбор Ошибки в определении генеральной совокупностиОшибки в определении генеральной совокупности Отсутствие ответов и человеческий факторОтсутствие ответов и человеческий фактор Примечание: между этими группами существует совпадение

Сознательный отбор Происходит, когда отдельные группы населения имеют больший шанс попасть в выборку, чем другие Пример: Пример: обследование бюджетов домохозяйств Интервьюер не хочет ходить в удаленные домохозяйства, до которых долго добиратьсяИнтервьюер не хочет ходить в удаленные домохозяйства, до которых долго добираться Такие домохозяйства скорее всего имеют низкий доход и находятся на самообеспеченииТакие домохозяйства скорее всего имеют низкий доход и находятся на самообеспечении В результате происходит завышение среднего доходаВ результате происходит завышение среднего дохода

Ошибки в определении генеральной совокупности Неадекватность сформированной выборки –Данные поступают или из административных источников, или из выборочных обследований –Неполные административные записи (списки избирателей, налогоплательщиков, предприятий, карты улиц и т.д.) или «неточная» основа выборки –Неадекватная основа выборки Классический пример : использование телефонов для опросов респондентов

Пропущенные группы Основа выборки или административные записи могут неадекватно отражать кластер генеральной совокупности, и какие-нибудь группы могут быть пропущены Пример: –Основа выборки: в список домохозяйств не попадают люди из детских домов –Административные данные: бизнес-регистры могут не сдержать данных о предприятиях в сельской местности

Пропуски В основе выборки могут быть пропуски Например Обследование: в список домохозяйств могут не попасть вновь приехавшиеОбследование: в список домохозяйств могут не попасть вновь приехавшие Административные данные: в бизнес-регистр не попадает новое, недавно созданное предприятиеАдминистративные данные: в бизнес-регистр не попадает новое, недавно созданное предприятие

Лишние единицы В основу выборки могут попасть «чужеродные элементы», которые не соответствуют концепции выборки. Пример: Обследование: в списке домашних хозяйств могут оказаться переехавшие в другое местоОбследование: в списке домашних хозяйств могут оказаться переехавшие в другое место Административные данные: бизнес-регистр может содержать данные о только что закрывшихся предприятияхАдминистративные данные: бизнес-регистр может содержать данные о только что закрывшихся предприятиях

Дублирование единиц Некоторые единицы генеральной совокупности могут появиться два и более раз Пример: Административные данные: предприятие, переехавшее на другую территорию, может дважды попасть в бизнес- регистр

Преимущества и недостатки попадания в списки Качество данных может зависеть от заинтересованности в регистрации Если предлагается вознаграждение, может возникнуть желание зарегистрироваться обманным путемЕсли предлагается вознаграждение, может возникнуть желание зарегистрироваться обманным путем Если берутся налоги, возникает желание избежать регистрации Если берутся налоги, возникает желание избежать регистрации Пример Casley and Lury (1981): министерство финансов в одной из стран-островов в Карибском море предложило выдавать субсидии на удобрения на каждый зарегистрированный участок земли Позже обнаружилось, что субсидии выдавались на землю, превышающую площадь острова!

Отсутствие ответов и человеческий фактор Отсутствие ответов Бывает трех типов: Не могут отвечатьНе могут отвечать ОтсутствуютОтсутствуют ОтказываютсяОтказываются

Отсутствие ответов и человеческий фактор Человеческие ошибки Намеренные ответы – когда респондентов поощряют отвечать определенным образомНамеренные ответы – когда респондентов поощряют отвечать определенным образом Пример 1: фермер преувеличивает размер участка, думая, что это приведет к увеличению помощи от государства или…. Пример 2: фермер преуменьшает размер участка в надежде минимизировать налоги

Первоначальный вопрос и ошибка престижа Некоторых респондентов подталкивают отвечать определенным образом, задавая вопрос. Например: «Вы согласны, что есть мясо – варварство?» Большинство людей соглашаются, чтобы избежать дальнейших расспросов! Люди бояться показаться плохо информированными Даже вид интервьюера может вызвать искажения в ответах

Суммарная ошибка

Суммарная ошибка Как мы видели, ошибка выборки снижается по мере повышения размера выборки К сожалению, обратное, как правило, справедливо для систематической ошибки: она возрастает с ростом размера выборки

Среднеквадратическая ошибка Суммарная ошибка – взятые вместе ошибка выборки (SE) и систематическая ошибка (BE); она измеряется при помощи среднеквадратической ошибки (RMSE) RMSE BE SE

Что делать с ошибками? Определить их количественноОпределить их количественно – как правило, возможно только для ошибок выборки Признавать их, если они не приводят к путанице и потере доверияПризнавать их, если они не приводят к путанице и потере доверия Фиксировать их с помощью метаданныхФиксировать их с помощью метаданных Рассматривать небольшую разницу в показателях ЦРТ с осторожностьюРассматривать небольшую разницу в показателях ЦРТ с осторожностью – эта разница может быть вызвана только ошибками

Как минимизировать ошибки? Использовать выборку большего размераИспользовать выборку большего размера Делать лучший дизайн выборки (например, стратификацию)Делать лучший дизайн выборки (например, стратификацию) Быть более внимательным к администрированию выборки (например, минимизировать отказы от ответов)Быть более внимательным к администрированию выборки (например, минимизировать отказы от ответов) Улучшить качество административных данных (охват)Улучшить качество административных данных (охват) Использовать статистические модели для разного рода усредненийИспользовать статистические модели для разного рода усреднений

Резюме Существует три типа ошибок, оказывающих влияние на показатели ЦРТ: Существует три типа ошибок, оказывающих влияние на показатели ЦРТ: Связанные с вычислениями, могут быть устранены при внимательном отношении к расчетам и использовании соответствующего программного обеспеченияСвязанные с вычислениями, могут быть устранены при внимательном отношении к расчетам и использовании соответствующего программного обеспечения Ошибки выборки не устраняемы при использовании выборочных обследованийОшибки выборки не устраняемы при использовании выборочных обследований Систематические ошибки часто присутствуют, но их можно минимизировать, тщательно проводя сбор данныхСистематические ошибки часто присутствуют, но их можно минимизировать, тщательно проводя сбор данных

Практическое занятие 8 1.Перечислите три способа возникновения систематической ошибки 2.Перечислите два метода, при помощи которых может быть уменьшена ошибка выборки