Кафедра общественного здоровья и здравоохранения По дисциплине «Доказательная медицина» Тема: Показатели описательной статистики. лекция 3 для студентов.

Презентация:

Advertisements

Похожие презентации

Основные понятия. Описательная статистика. Занятие 1.

Advertisements

1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:

Описательные характеристики распределения тестовых результатов 1.Меры среднего положения (меры центральной тенденции). Мода, медиана, среднее 2.Меры вариации.

Описательная статистика Параметры распределения. Асимметрия, эксцесс, модальность Распределение оценок студентов по разным разделам дисциплины: А – отрицательная.

Основные понятия. Описательная статистика. Занятие 1.

Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в.

Нормальное распределение: свойства и следствия из них

Лекция 2 – Идентификация закона распределения вероятностей одномерной случайной величины 2.1. Основные определения 2.2. Этапы обработки данных одномерной.

Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в.

6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.

Кафедра общественного здоровья и здравоохранения По дисциплине «Доказательная медицина» Тема: Методы сравнительной статистики. лекция 4 для студентов 1.

РАЗДЕЛ 1. "ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ ОБЩЕСТВЕННОГО ЗДОРОВЬЯ И ОРГАНИЗАЦИИ ЗДРАВООХРАНЕНИЯ" Тема 1.2. «Основы медицинской статистики и организации статистического.

Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.

ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ГЕОЛОГИИ Лекция 3 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.

Случайные величины: законы распределения. Что было: понятие о случайной величине СЛУЧАЙНОЙ ВЕЛИЧИНОЙ называется величина, которая в результате испытания.

Нормальное распределение Тема 1. Вопросы для обсуждения 1.Случайная величина и ее распределение 2.Математическое ожидание и его оценка 3.Дисперсия и ее.

Лекция 3 для студентов 1 курса, обучающихся по специальности – Лечебное дело К.п.н., доцент Шилина Н.Г. Красноярск, 2014 Тема: Основы математической.

Интервальное оценивание Лекция 4 для студентов 2 курса, обучающихся по специальности – Медицинская кибернетика доц. Шапиро Л.А. Красноярск, 2015.

Биостатистика: определение основной тенденции и дисперсии в условиях медицинской лабораторииииии.

Нормальный закон распределения Лекция 18. План лекции Нормальный закон распределения. Свойства нормального закона распределения Функции нормального закона.

Транксрипт:

Кафедра общественного здоровья и здравоохранения По дисциплине «Доказательная медицина» Тема: Показатели описательной статистики. лекция 3 для студентов 1 курса, обучающихся Зав. кафедрой ОЗиЗ К.м.н. доц. Шульмин А. В. Красноярск, 2011

Ознакомление с основными принципами отображения количественных и качественных признаков статистической совокупности.

1. Понятие об описательной статистике. 2. Шкалы измерения переменных (качественные и количественные). 3. Относительные величины: виды определение, методы расчета, области применения. 4. Вариационные ряды: определение, структура, виды. 5. Понятие о средних величинах (средняя арифметическая, мода, медиана), их применение в здравоохранении и деятельности врача. 6. Ознакомление с основными видами распределений переменных. 7. Критерии разнообразия признака в совокупности (дисперсия, лимит, амплитуда, среднее квадратичное отклонение, стандартная ошибка коэффициент вариации, перцентили). 8. Понятие о доверительном интервале и доверительной вероятности.

Анализ информации Анализ в Энциклопедическом словаре: Анализ - (от греч. analysis - разложение) - 1) расчленение (мысленное или реальное) объекта на элементы; анализ неразрывно связан с синтезом(соединением элементов в единое целое). 2) Синоним научного исследования вообще. 3) В формальной логике - уточнение логической формы (структуры)рассуждения.греч. расчленениенеразрывноединое Синонимуточнениеформы

Индукция - Логическое умозаключение от частного к общему, от единичного наблюдения к обобщению. Дедукция - Логическое умозаключение, переход от общих положений, законов и т.п. к частному, конкретному выводу.

Абсолютные величины – могут быть простыми (имеют именованные единицы измерения сантиметры, дни, случаи заболевания и т. п.) и сложными (выражаются произведениями единиц различной размерности человеко-часы, потерянные годы жизни и т. п.).

Учетные признаки Качественные Количественные Альтернативная (номинальная) шкала (пол) Шкала рангов (порядковая) (стадии болезни) Интервальные (шкала Цельсия) Относительные шкалы (наличие нулевой точки)

Описательная статистика 1. Меры центральной тенденции 1. Среднее значение (математическое ожидание) 2. Мода 3. Медиана 2. Меры разброса 1. Дисперсия (среднее квадратичное отклонение) 2. Стандартное отклонение 3. Среднее отклонение 4. Квантильные оценки (квартили, децили, процентили) 5.Максимум, минимум и размах выборки

Вариационный ряд (frequency table)- ранжированный ряд распределения по величине какого-либо признака. Этот признак носит название варьирующего, а его отдельные числовые значения называются вариантами и обозначаются через V. Число, показывающее, сколько раз данная варианта встречается в вариационном ряду, называется частотой и обозначается через "р"

Высота (V или Х) Частота (Р) Рост студентов

Сжатие (свертка, редукция) статистических данных Статистика – любая функция от вероятностных переменных, порождающих статистические данные. Простейший пример - выборочное среднее: Оно порождается вероятностной переменной: 13

Распределение выборочных средних (sampling distribution of the means) Следствие: некоторая величина отклоняется от среднего под воздействием слабых, независимых друг от друга факторов, Поэтому оно так широко распространено в природе! если некоторая величина отклоняется от среднего под воздействием слабых, независимых друг от друга факторов, она имеет нормальное распределение. Поэтому оно так широко распространено в природе! Пример про высоту деревьев в лесу

Кривая нормального распределения Нормальное (гауссово, симметричное, колоколообразное) распределение – описывает совместное воздействие на изучаемое явление небольшого числа случайно сочетающихся факторов (по сравнению с общей суммой факторов), число которых не ограничено велико. Встречается в природе наиболее часто, за что и получило название «нормального».Характеризует распределение непрерывных случайных величин. Р Х х – значения случайной величины; р – вероятность появления данного значения в совокупности.

Критерии нормальности Критерий Шапиро-Уилка (W-test, Shapiro-Wilk test) Разработан в 1965 году, является до сих пор самым мощным тестом на нормальность. Основа – оценка линейности регрессионной кривой на вероятностных графиках. Модификация – критерий Шапиро- Франциа (Shapiro-Francia test)

Определение нормальности распределения 1. По числам Вестергарда при нормальном распределении в пределах: х ± 0.3 σ находится 25 % всех единиц наблюдения; х ± 0.7 σ находится 50 % всех единиц наблюдения; х ± l,l σ находится 75 % всех единиц наблюдения; х ± 3,0 σ находится 99 % всех единиц наблюдения.

Асимметрия Эксцесс

Три ОСНОВНЫЕ ХАРАКТЕРИСТИКИ, которыми можно почти полностью описать большинство распределений 1.«Середина» распределения; 2.«Ширина» распределения; 3. Форма распределения Как описать частотное распределение переменной? Речь идёт не только о количественных данных, но и о качественных

«Середина» распределения «Середина» Мода (mode) Медиана (median) Среднее значение (mean) Разница понятий parameter и statistic Все они могут служить оценками популяционного среднего. Среднее в выборке – наиболее эффективная и несмещённая оценка.

Частотное распределение переменной (frequency distribution) «Середина» распределения Среднее значение – сумма всех значений переменной, делённая на количество значений *«balancing point» method Среднее для выборки Среднее для популяции

Частотное распределение переменной (frequency distribution) «Середина» распределения Медиана (median)– значение, которое делит распределение пополам ( его площадь в т.ч.): половина значений больше медианы, половина – не больше. 1,01,54,15,79,5 6,0 7,17,910,411,0 Медиана Имеет смысл не только для количественных переменных, но и для ранговых! (не для качественных). 3,2

Частотное распределение переменной (frequency distribution) «Ширина» распределения = Разброс* Размах (range) Стандартное отклонение (standard deviation) Дисперсия (variance) * Это лишь основные параметры разброса Размах (range) – разность между максимальным и минимальным значениями = X n – X 1 Хорош тем, что легко считается и имеет «биологический смысл». Плох тем, что зависит лишь от 2-х точек из распределения. Недооценивает истинный размах в популяции. Если в статье приводится размах, следует привести ещё какую-нибудь характеристику разброса.

Основные характеристики нормального распределения Среднее арифметическое значение (М) Стандартное (среднеквадратическое) отклонение (σ) Количество наблюдение (n)

68.3 % всех вариант отклоняются от своей средней не более, чем на σ 95.4% вариант находятся в пределах X ± 2σ 99.7% вариант находятся в пределах X ± 3σ. Отклонение параметра от его средней арифметической в пределах σ расценивается как норма, субнормальным считается отклонение в пределах ± 2σ и патологическим - сверх этого предела, т.е. > ± 2σ" (рис. ) Правило «трех сигм» ( SD – стандартное отклонение)

На тощак 3,3 -5,5 ммоль/л После еды 3,3 – 7,8 ммоль/л. Критическая точка 11,0 ммоль/л Критическая точка 6,1 ммоль/л 4, 4±0,55 ммоль/л 5,55±1,125 ммоль/л

Частотное распределение переменной (frequency distribution) «Середина» распределения Мода, медиана и среднее СОВПАДАЮТ для симметричного унимодального распределения К появлению перекоса чувствительнее всего среднее значение ЗАРПЛА ТА, $ ЧАСТ ОТА /32/3

Название квантилей Число частей, на которые разбивается ряд Медиана 2 Терциль 3 Квартиль 4 Дециль 10 Процентиль 100 Вариационный ряд можно разбивать на отдельные (по возможности равные) части, которые называются квантилями (quantile). Наиболее часто употребляемые квантили:

Ящичная диаграмма

Основные характеристики нормального распределения Среднее арифметическое значение (М) Стандартное (среднеквадратическое) отклонение (σ) Количество наблюдение (n)

Распределение выборочных средних (sampling distribution of the means) Три основные концепции в анализе данных: 1. Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать 2. Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной 3. Что такое СТАТИСТИКА КРИТЕРИЯ выборка популяция

Распределение выборочных средних (sampling distribution of the means) Ещё раз центральный статистический вопрос: что мы можем сказать обо всей ПОПУЛЯЦИИ, если всё, что у нас есть, это лишь ВЫБОРКА из неё? На 1-м курсе института 25 групп по 22 студента. Средняя масса студента – μ=50 кг, σ = 4 кг. Посчитаем средние массы для каждой группы! Форма распределений маленьких выборок не обязательна должна удовлетворять критериям нормального распределения. …..

Распределение выборочных средних (sampling distribution of the means) Мы посчитали средние массы студентов в КАЖДОЙ группе, и теперь построим распределение из этих СРЕДНИХ значений! Оно будет намного УЖЕ распределения всех студентов 1-го курса, и УЖЕ, чем каждое из распределений из отдельных групп Это и будет распределение выборочных средних (sampling distribution of the means) Пример про бутылки с кока-колой

Распределение выборочных средних (sampling distribution of the means) s Распределение выборочных средних Выборка (группа) Популяция (1-й курс) среднее стандартное отклонение >> Стандартная ошибка среднего (Standard error = SE)

Распределение выборочных средних (sampling distribution of the means) ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА Определяет форму, среднее и разброс в распределении выборочных средних Форма: с увеличение размера выборок (групп) распределение выборочных средних приближается к нормальному распределению (независимо от формы распределения популяции). Среднее: среднее значение в распределении средних равно среднему значению в популяции, т.е., Разброс: распределение выборочных средних Уже распределения популяции на, где n – объём выборки, т.е. Пример с монеткой

Распределение выборочных средних (sampling distribution of the means) У нас есть только одна выборка. Из неё мы получили среднее значение Насколько оно близко среднему значению в популяции ( μ )? Мы знаем, что для нормального распределения есть z-оценка, значениям которой соответствуют определённые площади распределения. Но мы также знаем, что выборочные средние образуют нормальное распределение!! Это значит, что, зная среднее в популяции, мы можем предсказать (с … вероятностью) интервал, в который попадёт выборочное среднее. Решим обратную задачу. Пусть нам известно μ, найдём

Распределение выборочных средних (sampling distribution of the means) Z - оценка Z - оценка Вопрос: какая часть ОСОБЕЙ имеет массу больше 55 кг? Другой вопрос: какая часть ВЫБОРОК имеет СРЕДНЮЮ массу больше 55 кг?

Оценка параметров популяции на основе свойств выборки Пусть мы изначально знаем среднюю массу студентов 1-го курса и стандартное отклонение в популяции. Как оценить среднюю массу в одной из групп? Построим распределение выборочных средних! Вспомним, что оно – нормальное, а его среднее значение соответствует среднему в популяции μ Зная стандартное отклонение в нем (=SE!!) можем рассчитать интервал, в который попадёт 95% (99%) всех средних масс в группах:

Оценка параметров популяции на основе свойств выборки 95% доверительный интервал (95% confidence interval): интервал значений переменной, который с вероятностью 95% содержит нужный параметр. Т.е., расстояние от среднего значения в популяции до выборочного среднего для 95% выборок не больше 1.96 SE Вернёмся к исходной задаче: Как оценить среднюю массу в популяции, если нам известно среднее в выборке?? Расстояние от среднего в выборке до (неизвестного) среднего в популяции с вероятностью 95% не больше 1.96 SE cv – critical value, критическое значение статистики (в данном случае, Z)

Оценка параметров популяции на основе свойств выборки Вопрос: где расположено μ? Ответ: я точно не знаю, но наиболее вероятно – в пределах ± 2-х стандартных ошибок среднего (SE) Чем больше уровень достоверности – 99%, 99,9%... (= доверительный уровень) тем ШИРЕ будет интервал Вопрос: где расположено μ? Ответ: я совершенно уверен, что оно лежит в пределах... от до В примере нам было известно σ, но на практике оно обычно неизвестно!

Оценка параметров популяции на основе свойств выборки Мы не знаем стандартное отклонение в популяции, и оцениваем его через стандартное отклонение в выборке – поэтому, доверительный интервал должен быть ШИРЕ, чем при известном σ. Насколько шире? Это будет зависеть от РАЗМЕРА ВЫБОРКИ (от числа степеней свободы df = n-1) df Пояснить про число степеней свободы

Доверительные интервалы для долей Доверительный интервал (confidence interval) для доли – это диапазон значений, в пределах которого с заданной вероятностью (обычно 95%) находится истинная популяционная доля. Для достаточно больших выборок распределение выборочных долей можно считать нормальным. Тогда: Доверительный интервал для доли: ДИ=p±zs p

Доверительные интервалы для долей Доверительные интервалы для долей, рассчитанные выше, являются лишь приблизительными. Точные доверительные интервалы рассчитываются, исходя из биномиального распределения. Вручную их можно определить по специальным номограммам, а на практике – в компьютерных статистических пакетах. Доверительные интервалы должны в обязательном порядке указываться для всех переменных при описании данных.

Доверительные интервалы для долей Пример: Исследователь указывает, что он исследовал 10 больных до и после лечения. Затем в таблице мы увидим, что до лечения боли в животе были у 70%, а после лечения – лишь у 20%. Данные выглядят очень убедительно - различия составляют 50%!. Теперь укажем доверительные интервалы: - До лечения - 70% (35% - 93%), после лечения - 20% (25% - 56%). Доверительные интервалы даже перекрываются! Поэтому проверим значимость различий: различия действительно значимы (p=0.02). Применение доверительных интервалов показывает, какой диапазон значений может принимать показатель в популяции, а не в конкретной выборке.

Доверительные интервалы для долей График без доверительных интервалов – дает представление только о выборке, изученной исследователем.

Доверительные интервалы для долей Тот же график, но уже с границами доверительных интервалов – диапазон, который могут принимать истинные значения в популяции.

Заголовок слайда р - величина показателя изучаемого признака; q - (100-p); t - доверительный коэффициент, показывающий какова вероятность того, что размеры показателя не будут выходить за границы предельной ошибки (обычно берется t = 2, что обеспечивает 95% вероятность безошибочного прогноза); предельная ошибка показателя.

57 σ показатель вариабельности признака (среднеквадратическое отклонение), который можно получить из предыдущих исследований либо на основании пробных (пилотажных) исследований.

Выводы: Таким образом мы рассмотрели: понятие об описательной статистике, шкалы измерения переменных, относительные величины, вариационные ряды, понятие о средних величинах, критерии разнообразия признака в совокупности, понятие о доверительном интервале и доверительной вероятности.

Рекомендованная литература по теме занятия: - обязательная; Павлушков И.В. Основы высшей математики и математической статистики: Учебник для мед. вузов - дополнительная; 1. А. Петри, К. Сэбин Наглядная медицинская статистика. – М.: ГЭОТАР- Медиа, – С Зайцев В. М., Лифляндский В. Г., Маринкин В. И. Прикладная медицинская статистика: Учебное пособие. - СПб.: Фолиант, – С

Благодарю за внимание