ВЫБОРОЧНОЕ ИССЛЕДОВАНИЕ. Выборочное статистическое исследование – это обследование выборочной совокупности с целью получения достоверных суждений о характеристиках.

Презентация:



Advertisements
Похожие презентации
1. Сущность выборочного наблюдения, причины и условия его применения. 2. Теоретические основы выборочного наблюдения. Виды и способы отбора единиц в выборочную.
Advertisements

Выборочное наблюдение. Понятие выборочного наблюдения. Выборочное наблюдение – это такой вид статистического наблюдения, при котором обследованию подвергается.
В ЫБОРОЧНОЕ НАБЛЮДЕНИЕ. Под выборочным наблюдением понимается такое несплошное наблюдение, при котором статистическому обследованию (наблюдению ) подвергаются.
Расчет оптимальной численности выборки. Статистическое наблюдение сплошное Обследование всех единиц изучаемой совокупности не сплошное Обследование части.
Статистические оценки параметров распределения Доверительные интервалы.
СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.
Общая теория статистики Выборочный метод в статистике. Статистическая гипотеза.
ЛЕКЦИЯ 7 ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ § 1. Основные понятия, классификации, обозначения.
Доверительный интервал и доверительная вероятность.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Визуализация данных Визуализация данных Точечные оценки Точечные оценки Групповые характеристики Групповые характеристики Метод.
ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ. Все единицы изучаемого явления называются генеральной со­вокупностью, а отдельная часть этих единиц, отобранных из ге­неральной.
Интервальное оценивание Лекция 4 для студентов 2 курса, обучающихся по специальности – Медицинская кибернетика доц. Шапиро Л.А. Красноярск, 2015.
Элементы математической статиститки. Статистика – дизайн информации.
Статистические методы обработки данных 22 слайда МОУ ДОД ДЮЦ «ЕДИНСТВО»
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Тема 6. Выборочное наблюдение Вопрос 1. Понятие о выборочном наблюдении и его значение. Вопрос 2. Основные способы формирования выборочной совокупности.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
1. ОПРЕДЕЛЕНИЕ НЕОБХОДИМОГО ОБЪЕМА ВЫБОРКИ 2. ОЦЕНКА РЕЗУЛЬТАТОВ ВЫБОРОЧНОГО НАБЛЮДЕНИЯ 3. МАЛАЯ ВЫБОРКА.
Транксрипт:

ВЫБОРОЧНОЕ ИССЛЕДОВАНИЕ

Выборочное статистическое исследование – это обследование выборочной совокупности с целью получения достоверных суждений о характеристиках или параметрах генеральной совокупности. Генеральная совокупность – это полная совокупность единиц ( вся статистическая совокупность). Выборочная совокупность (выборка) - это часть единиц генеральной совокупности, отобранная в случайном порядке. Обозначения: объем генеральной совокупности – N; объем выборки - n

Почему выборочному наблюдению отдается предпочтение перед сплошным? 1) с целью экономии времени и средств в результате сокращения объема работы (при выборочном методе обследованию подвергается 5-10%, реже до 15-20% изучаемой совокупности); 2) чтобы свести к минимуму порчу или уничтожение исследуемых объектов (например, при определении прочности пряжи на разрыв нити, при испытании электрических лампочек на продолжительность горения, при проверке консервов на доброкачественность); 3) вследствие того, что исследуемая совокупность может быть полностью недоступна; 4) вследствие того, что исследуемая совокупность может не иметь конечного объема.

Наиболее часто исследуемые с помощью выборочного метода характеристики совокупности: Статистическая характеристика (параметр) В генеральной совокупности (г.с.) В выборке (в.с.) Среднее Доля альтернативного признака N a – число единиц с данным значением признака в г.с. n a – число единиц с данным значением признака в г.с. Дисперсия

По данным выборки мы не можем найти точное значение характеристики (параметра) генеральной совокупности, а можем только получить его приближенное значение (оценку). Статистической оценкой ( *) характеристики (параметра) генеральной совокупности называют приближенное значение этой характеристики (параметра), полученное по некоторой функции от наблюдаемых в выборке значений признака Х (х 1, х 2,...х n ), т.е.: *=f(х 1, х 2,...,х n ), где n – объем выборки; (х 1, х 2,..., х n ) – рассматриваются как независимые случайные величины. Функцию (f) называют способом оценивания.

m- всего выборок. От выборки к выборке статистическая оценка (даже при одном и том же способе оценивания) меняется ( * 1, * 2,…, * m ). Статистическая оценка ( * j ) представляет собой случайную переменную (т.к. сочетание значений признака Х в выборке случайно, следовательно, случайным будет и значение функции от них). Генеральная совокупность объемом N, г Выборки: 1(n 1 ) 2 (n 2 )..... m (n m ) * 1 * * m

Для одной и той же характеристики (параметра) генеральной совокупности может быть предложено несколько способов оценивания. Возникает проблема выбора лучшего способа оценивания. Критерием выбора является требование состоятельности, несмещенности и эффективности оценки. Способ оценивания дает состоятельные оценки, если при бесконечно большом объеме выборки значение статистической оценки стремится к искомому значению характеристики (параметра) генеральной совокупности.

Способ оценивания дает несмещенные оценки, если математическое ожидание оценки при данном способе оценивания тождественно искомой характеристике (параметру) генеральной совокупности (при любом объеме выборки), т.е. М( *)= г. Если математическое ожидание оценки не равняется характеристике генеральной совокупности, то оценка называется смещенной. И разность М( *) - г называется смещением. Способ оценивания дает эффективные оценки, если дисперсия оценки минимальна (при заданном объеме выборки n) в сравнении с другими способами отбора.

Статистическая оценка, полученная по данным выборки, отличается от генеральной характеристики (параметра) на величину ошибки выборки. Ошибка выборки состоит из двух частей: ошибки регистрации и ошибки репрезентативности.

Ошибки репрезентативности (представительности) возникают в результате того, что состав отобранной для обследования части единиц совокупности недостаточно полно отображает состав всей изучаемой совокупности (иначе говоря не все типы явления представлены в выборке). В дальнейшем будем предполагать, что ошибка регистрации равна нулю. Следовательно, ошибка выборки равна ошибке репрезентативности.

Различают среднюю и предельную ошибки выборки. Средняя ошибка выборки ( ) – это среднее (по выборкам) отклонение выборочной оценки от истинного значения генеральной характеристики. В каждой конкретной выборке фактическая ошибка выборки может быть меньше средней ошибки, равна ей или больше ее. Причем каждое из этих расхождений имеет различную вероятность.

Предельная ошибка выборки ( ) – это максимально возможная при данной вероятности ошибка выборки. То есть мы с заданной вероятностью (Рдов) гарантируем, что оценка,полученная по нашей конкретной выборке, будет отличаться от значения генеральной характеристики не больше, чем на величину предельной ошибки.

Вероятность, с которой мы гарантируем, что ошибка нашей выборки не превысит предельную ошибку, называется доверительной вероятностью - Рдов. Предельная ошибка рассчитывается по формуле: =t·, где t- коэффициент доверия, значение которого определяется доверительной вероятностью (Рдов). Чем больше Рдов, тем больше t.

Закон больших чисел – методологическая основа выборочного метода. Теоретической основой выборочного метода является закон больших чисел: С увеличением объема выборки вероятность появления больших ошибок и пределы максимально возможной ошибки уменьшаются (т.е. чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик).

Математически данный закон записывается через неравенство П.Л.Чебышева: где - ошибка выборки; n – объем выборки; - выборочное среднее; - генеральное среднее. Следует отметить, что данное неравенство справедливо для генеральной совокупности с ограниченной дисперсией.

Центральная предельная теорема А.М.Ляпунова: При достаточно большом числе независимых наблюдений вероятность того, что расхождение между выборочной и генеральной средней не превысит по модулю некоторую величину ·t, равна интегралу Лапласа Ф(t): (это справедливо для генеральной совокупности с конечной средней и ограниченной дисперсией).

Данная теорема позволяет указать вероятность появления ошибок определенной величины. t1,001,641,962,00 Рдов=Ф(t)0,6830,9000,9500,954

Из центральной предельной теоремы следует важный вывод: при достаточно большом числе независимых наблюдений (объеме выборки) распределение отклонений выборочных средних от генеральной средней (а, следовательно, и самих выборочных средних) приближенно нормально. При небольшом объеме выборки (n

Классификация способов отбора 1. Повторный и бесповторный отбор При повторном отборе общая численность единиц генеральной совокупности в процессе выборки остается неизменной. Единицу, попавшую в выборку, после регистрации снова возвращают в генеральную совокупность, и она сохраняет равную возможность со всеми прочими единицами на следующем шаге отбора вновь попасть в выборку. Повторная выборка в социально-экономической жизни встречается редко.

При бесповторном отборе единица совокупности, попавшая в выборку, в генеральную совокупность не возвращается и в дальнейшем отборе не участвует. Таким образом, при бесповторном отборе численность единиц генеральной совокупности сокращается в процессе выборки.

2. Отбор может быть организован как : - собственно-случайный; - механический; - стратифицированный (типический); - серийный Собственно-случайный отбор – такой отбор единиц из генеральной совокупности, когда на включение (исключение) единицы в выборку (из выборки) не может повлиять какой-либо фактор кроме случая. Технически он осуществляется посредством жеребьевки или таблиц случайных чисел. При этом необходимо иметь список единиц генеральной совокупности. Примером может служить отбор студентами на экзамене экзаменационных билетов.

Механический отбор - это бесповторный отбор элементов из генеральной совокупности, упорядоченной по нейтральному (несущественному для цели исследования) признаку через равные интервалы. Механический отбор по результатам близок к бесповторному собственно-случайному. Примеры: Отбор каждой 20-й детали, сходящей с конвейера для проверки ее качества. Здесь нейтральный признак – номер детали.

При исследовании успеваемости студентов вуза в качестве нейтрального признака можно взять фамилию, имя и отчество студента. Всех студентов упорядочивают по Ф.И.О. После чего отбирают заданное число студентов по фамилиям механически, через определенный интервал. Размер интервала в генеральной совокупности равен обратному значению доли выборки. Так, при 2%-ой выборке отбирается и проверяется каждая 50-я единица (1/0,02), при 5%-ой выборке – каждая 20-ая единица (1/0,05).

Стратифицированный отбор используют для отбора единиц из неоднородной совокупности, когда все единицы генеральной совокупности можно разбить на несколько качественно однородных групп по существенным для цели исследования признакам. Из каждой такой группы собственно-случайным или механическим способом производится индивидуальный отбор единиц в выборку. Стратифицированный отбор, при котором пропорции между группами в выборке совпадают с пропорциями между группами в генеральной совокупности, называется типическим отбором.

Серийный отбор представляет случайный отбор из генеральной совокупности не отдельных единиц, а их равновеликих групп (серий) с тем, чтобы в таких группах подвергать наблюдению все без исключения единицы. Серийный отбор применяют в том случае, когда исследуемый признак колеблется внутри серий незначительно. Применение серийной выборки обусловлено тем, что многие товары для их транспортировки, хранения, продажи упаковываются в пачки, ящики и т.п. Поэтому при контроле качества упакованного товара рациональнее проверить несколько упаковок (серий), чем из всех упаковок отбирать необходимое количество товара.

Выборки также делят на большие (с объемом большим или равным 30 единицам) и малые (с объемом меньше 30 единиц).

ТОЧЕЧНОЕ И ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ Точечной называют оценку ( *), которая определяется одним числом. При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т.е. приводить к грубым ошибкам. Интервальной называют оценку, которая определяется двумя числами – концами интервала. Интервальные оценки позволяют установить точность оценки (величину предельной ошибки выборки) и надежность оценки (вероятность, с которой гарантирован результат оценивания). Интервальная оценка ( *- ; *+ ) представляет собой доверительный интервал.

Вероятность того, что доверительный интервал не покроет генеральную характеристику (параметр) совокупности обозначают и называют уровнем значимости: =1- Рдов. При Рдов=0,95 =0,05; при Рдов=0,99 =0,01.

Порядок расчета интервальной оценки характеристики (параметра) генеральной совокупности: 1. Определяют точечную оценку характеристики (параметра) генеральной совокупности ( *). Характеристик а Наилучшая точечная оценка Среднее выборочное среднее Доля альтернативног о признака выборочная доля Дисперсияисправленная выборочная дисперсия

2. Рассчитывают среднюю ошибку выборки -. Формулы расчета средней ошибки выборки - зависят от способа отбора и от вида оцениваемой характеристики генеральной совокупности (среднее или доля). Собственно –случайный отбор Способ отбора СреднееДоля альтернативного признака повторн ый бесповт орный

Механический и типический способы отборы Способ отбора СреднееДоля альтернативного признака механи ческий Типиче ский повторн ый Типиче ский бесп. остаточная (средняя из внутригрупповых) дисперсия выборки

Серийный отбор Способ отбора СреднееДоля альтернативного признака повтор ный беспов торный Межсерийная Число серий в дисперсия выборке Число серий в ген.совокуп ности

3. Рассчитывают предельную ошибку выборки: =t, При большом объеме выборки (30) значение коэффициента доверия t находим из таблиц интегральной функции стандартного нормального распределения по заданной доверительной вероятности Рдов. При небольшом объеме выборки (n

4. Определяют границы доверительного интервала: ( *- ; *+ ) – интервальная оценка. Вывод: с вероятностью Рдов данный интервал покроет генеральную характеристику (параметр).

Пример 1: Из партии готовой продукции в порядке механической выборки проверено 50 лампочек на продолжительность горения. Средняя продолжительность горения лампочки оказалась равной 840 ч. при среднем квадратическом отклонении 60 ч. С вероятностью 0,95 определить доверительные пределы средней продолжительности горения лампочки в генеральной совокупности (партии продукции). РЕШЕНИЕ: Для построения доверительного интервала ( *- ; *+ ) в качестве точечной оценки * возьмем выборочное среднее арифметическое. По условию оно равно 840 ч. Чтобы рассчитать предельную ошибку =t нужно определить среднюю ошибку. В случае механического отбора и оценке среднего воспользуемся формулой:

Значение t найдем по таблицам стандартного нормального распределения, так как в нашем случае выборка большая (ее объем равный 50 > 30). Для Рдов=0,95 по таблице стандартного нормального распределения t=1,96. Тогда =1,968,6 = 16,86 (ч.). То есть с вероятностью 0,95 можно утверждать, что средняя продолжительность горения лампочки в нашей выборке отличается от этой же характеристики в генеральной совокупности не более чем на 16,6 часа. Теперь можем построить доверительный интервал: (840 – 16,86; ,86) или (823,14; 856,86). Вывод: с вероятностью 0,95 можно утверждать, что средняя продолжительность горения в генеральной совокупности (т.е. во всей партии) не выйдет за пределы от 823 ч. до 857 ч.

Пример 2: За некоторый период времени рабочий изготовил 2000 деталей. Выборочно (методом собственно-случайного бесповторного отбора) проверено 120 деталей. Оказалось, что из них 4 бракованные. Требуется с вероятностью 0,90 определить доверительные пределы доли бракованных деталей среди всех изготовленных рабочим за этот период (т.е. в генеральной совокупности). РЕШЕНИЕ: В данном случае требуется построить доверительный интервал для доли альтернативного признака (w). точечной оценкой показателя доли является выборочная доля: То есть среди проверенных деталей 0,033 (или 3,3%) оказалось бракованных.

Для определения границ доверительного интервала нам нужно найти предельную ошибку, а чтобы найти требуется определить среднюю ошибку. Формула расчета в данном случае (собственно-случайный бесповторный отбор; характеристика – доля): То есть в среднем отклонение выборочной доли от генеральной составит 0,016. Теперь найдем коэффициент доверия t по таблице стандартного нормального распределения, т.к. выборка большая (n=120>30). Для Рдов=0,90 t=1,64.

Тогда =1,640,016 = 0,026. Теперь можем построить доверительный интервал: (0,03 – 0,026; 0,03 + 0,026) или (0,004; 0,056). Вывод: с вероятностью 0,9 можно утверждать, что доля бракованных деталей в общем объеме изготовленных рабочим (в генеральной совокупности) будет в пределах от 0,004 до 0,056 или от 0,4% до 5,6%

Другая задача, решаемая с помощью выборочного метода: определение необходимого объема выборки - n при заданной точности ( ) и надежности (Рдов) оценивания. Формулы расчета для собственно –случайного отбора: харак-ка повторный отбор бесповторный отбор Среднее Доля альтернати вного признака

Пример 3: На городской телефонной станции в порядке собственно-случайной выборки проводится обследование телефонных разговоров с целью определения сред.продолжительности разговора. Сколько телефонных разговоров требуется обследовать, чтобы с вероятностью 0,95 предельная ошибка (точность) при определении средней продолжительности разговора не превышала 1 мин. (В порядке пробного обследования исправленное среднее квадратическое отклонение длительности разговора составило 5 мин.) РЕШЕНИЕ: Необходимый объем выборки можно определить по формуле: Дисперсия (s 2 ) по условию равна 5 2 = 25. При Рдов=0,95 t=1,96.

Тогда объем выборки будет равен: Вывод: 96 телефонных разговоров требуется обследовать, чтобы с вероятностью 0,95 предельная ошибка (точность) при определении средней продолжительности разговора не превышала 1 мин.

Пример 4: На основе данных примера 2, ответьте на вопрос: сколько еще деталей требуется обследовать, чтобы снизить предельную ошибку (точность) до 1% (0,01). РЕШЕНИЕ: Необходимый объем выборки можно определить по формуле: 605 – 120 = 485 (дет.) Вывод: 485 деталей требуется обследовать дополнительно, чтобы с вероятностью 0,90 предельная ошибка (точность) при определении доли брака у рабочего не превышала 1 %.