Информационные технологии в биологических исследованиях Раздел: «Информационные технологии и математическая обработка результатов биологического эксперимента»

Презентация:

Advertisements

Похожие презентации

6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.

Advertisements

Обработка и представление результатов измерений. Оценка случайной погрешности измерений Полученные при непосредственном измерении величины неизбежно содержат.

1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:

Статистические оценки параметров распределения Доверительные интервалы.

Лекция 2 – Идентификация закона распределения вероятностей одномерной случайной величины 2.1. Основные определения 2.2. Этапы обработки данных одномерной.

Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции

Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в.

Интервальное оценивание Лекция 4 для студентов 2 курса, обучающихся по специальности – Медицинская кибернетика доц. Шапиро Л.А. Красноярск, 2015.

Статистическая гипотеза. Нулевая гипотеза Кошкарова М.

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Визуализация данных Визуализация данных Точечные оценки Точечные оценки Групповые характеристики Групповые характеристики Метод.

ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ГЕОЛОГИИ Лекция 3 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.

Минаева Татьяна Александровна Демьяненко Ирина Николаевна.

Расчет оптимальной численности выборки. Статистическое наблюдение сплошное Обследование всех единиц изучаемой совокупности не сплошное Обследование части.

Биостатистика: определение основной тенденции и дисперсии в условиях медицинской лабораторииииии.

Лабораторная работа 6 Обработка результатов эксперимента в MathCad.

Выборочное наблюдение. Понятие выборочного наблюдения. Выборочное наблюдение – это такой вид статистического наблюдения, при котором обследованию подвергается.

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Предмет и методы Лекция 2.

Лекция 3 - Проверка гипотез в одномерном статистическом анализе 3.1. Основные понятия, используемые при проверке гипотез 3.2. Общий алгоритм статистической.

Т ЕМА 6. «С РЕДНИЕ ВЕЛИЧИНЫ И ПОКАЗАТЕЛИ ВАРИАЦИИ »

СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.

Транксрипт:

Информационные технологии в биологических исследованиях Раздел: «Информационные технологии и математическая обработка результатов биологического эксперимента» Лекция 2: «Первичный анализ и обработка данных»

1. Распределения, их виды и характеристики 2. Оценка сильно отклоняющихся значений 3. Основные параметры совокупности – средняя, арифметическая, ошибка средней, достоверность 4. Мера варьирования величин – среднеквадра- тичное отклонение, коэффициент вариации 5. Оценка репрезентативности выборки 6. Некоторые конкретные примеры, Базовые понятия и операции первичной обработки экспериментальных данных

В биологических исследованиях основной интерес представляют сведения, относящиеся не к индивидуальному объекту, а к целой группе или некоторому статистическому среднему объекту. Необходимость использования статистических методов в биологических исследованиях связана с тем, что свойства биологических объектов варьируют в пределах популяции, а физиологические и другие параметры одной особи испытывают флуктуации во времени.

Объекты каждого исследования (растения, животные, микроорганизмы, урожаи с опытных делянок или вегетационных сосудов, образцы плодов, семян и пр.) образуют общую, или генеральную, совокупность. Термин совокупность относят и к полученным в опыте или путем наблюдений числам, характеризующим с какой-либо одной количественной стороны объекты, входящие в данную генеральную совокупность. В статистическую совокупность следует включать лишь числа, относящиеся к качественно однородным признакам (свойствам) объекта исследования. Статистическая совокупность – это и объекты исследования и полученные данные

Признаки (их количественная мера, варианта) варьируют случайным образом по причине естественной изменчивости и ошибок измерений Основное – естественная изменчивость, вызванная биологическими причинами Характер самого наблюдаемого явления, особенности причин, вызывающих колебания данного признака определяют особенности колебаний данных. Вычисления можно проводить как угодно точно, но результат вычисления не может быть точнее тех данных, на которых оно основано

Чаще всего в природе наблюдается закономерность: большие по величине колебания данных встречаются значительно реже, чем меньшие по величине Большинство членов статистической совокупности оказывваются среднего или близкого к нему размера. Чем дальше они отстоят от среденего уровня, тем реже стречаются. Существует связь между числовыми значениями варьирующих признаков и частотой их встречаемоссти в данной совокупности - это и есть распределение Распределения

Пример распределения Вариационный ряд В случае, если глубина выборки, т. е. количество чисел, полученных в результате измерений, невелико, можно составить вариационный ряд Например, подсчет количества глазков в 25 клубнях картофеля. Всего: 6, 9, 5, 7. 10, , 9. 12, 9, 8, 10, 11, 9, 10, 8, 10, 7, 9, 11, 9, 10. Варианты, x Число вариант, f

Непрерывное распределение где f' частоты нормальной кривой; х варианты (середины классов) ряда

Нормальное распределение Распределение – это соотношение между значениями случайной величины и частотой их встречаемости. Большое число случайных величин, распространенных в природе, может быть описано с помощью закона нормального распределения, который задается уравнением : где f' теоретические частоты нормальной кривой; N объем выборки; с классовый интервал; σ среднее квадратическое отклонение; е основание натуральных логарифмов; t =(х М)/ σ нормированное отклонение; М средняя арифметическая; х варианты (середины классов) ряда

Характеристики нормального распределения Основные параметры нормального распределения – среднее арифметическое (М) и среднеквадратическое отклонение – сигма (σ) На расстоянии М + σ и М - σ от среднего значения на графике нормальной кривой расположены абсциссы ее двух точек перегиба, которые показывают переход от типичных величин вариант совокупности к нетипичным, хотя и принадлежащих еще к данной совокупности. В интервале нормы, между абсциссами, от М - σ до М + σ находится 68,27% всей площади нормального распределения, т. е. вариант, или дат совокупности; между М - 2σ и М+2σ заключается 95,45% дат от всего объема и в интервале от М - 3σ до М+3σ лежит 99,73% от всего объема нормально распределенной совокупности.

Биномиальное распределение Где f частоты, N n – число проб, t – нормированное отклонение, (x-M)/σ, c – классовый интервал. Относится к дискретным величинам, то есть к тем, которые могут быть представлены только целыми числами. Например, глазков в картофелине может быть только целое число и т.д. В общем виде.

Характеристики биномиального распределения Во многом близко к нормальному. Отличие состоит лишь в том, что оно характеризует поведение дискретных признаков, выраженных целыми числами. Как правило, для описания биологических признаков подходит симметричное биномиальное распределение, у которого дисперсия много меньше средней. Выборка при биномиальном распределении обычно образуется, когда берут N n проб одинакового объема, равного n Вероятность появления события постоянна для кажлой пробы (лист растения либо заразится грибом, либо нет) Два исхода – поэтому бином

Частный случай биномиального распределения: Вариант описания стохастического поведения дискретных количественных признаков для случаев, когда вероятность элементарных альтернативных событий неодинакова, одно из них наблюдается заметно чаще другого (p

Пример распределения Пуассона Распределение Пуассона резко асимметрично, причем дисперсия равна средней арифметической, что может служить критерием для оценки характера распределения изучаемого признака. Пример. В течение одного года пометили кольцами и выпустили на волю 32 птицы. В последующие пять лет часть из них отлавливали повторно: 7 экз. по одному разу, 7 – по два, 2 – по три, 1 экз. – четыре раза, 15 экз. окольцованных птиц повторно не попадались: Число повторных отловов, x Число отловленных животных, a Число случаев повторного отлова, х*а n3231

Расчеты показали, что средняя арифметическая (M) примерно равна дисперсии (σ²) = экз экз., σ² = 1.257, σ² Mσ² M

Распределение Пуассона где f' теоретические частоты распределения Пуассона, т. е. число проб, обладающих той или иной долей наблюдаемого признака; х варианты, отдельные значения наблюдаемого признака; х! (икс-факториал) обозначает произведение ряда натуральных чисел, например: 3! = = 6; М средняя арифметическая данного ряда; Nп общее число проб

При возрастании произведения np - (вероятная частота ожидаемого события) распределение Пуассона стремится к нормальному

Оценка сильно отклоняющихся вариант Относится ли данная варианта вместе с другими вариантами изучаемой выборки к одной и той же генеральной совокупности или – к разным? Сформировано ли данное значение варианты под действием тех же доминирующих и случайных факторов, что и все остальные варианты данной выборки, или это были иные факторы? 2 возможных ответа: 1. Факторы те же, т. е. все варианты взяты из одной и той же генеральной совокупности. 2. Факторы иные, т. е. особенная варианта и выборка порознь взяты из разных генеральных совокупностей

Ответ можно получить с использованием свойств нормального распределения Если все варианты были взяты из одной генеральной совокупности, они должны отличаться друг от друга только в силу случайных причин и (с вероятностью P = 0.95) находиться в диапазоне M ± 2 σ. Эта величина, нормированное отклонение, и служит безразмерной характеристикой отклонения варианты от средней арифметической: ~ t табл., где t – критерий выпада (исключения), x – выделяющееся значение признака, М – средняя величина для группы вариант, t табл. – стандартные значения критерия выпадов, определяемые свойствами нормального распределения, их можно найти по таблице Для больших выборок пользуются значением t табл. = 2 при P = 0.95,

nαnα Значение критерия t для отбраковки «выскакивающих» вариант с известными параметрами распределения

Когда параметры распределения неизвестны, можно использовать сравнение различий максимальной и минимальной вариант, «размах» значений ряда. Для этого существуют два критерия, для максимальной и минимальной вариант Имеется ранжированный ряд, где представлена высота растений одного вида (в см) Табличное значение критерия для N = 13 составляет 0,52 > 0,13, т. е. больше, чем вычисленная величина. Варианту нельзя исключать из выборки. Для максимальной Для минимальной Полученное значение меньше табличного 0,029

Средняя арифметическая, среднеквадратическое отклонение, ошибка средней, достоверность Насколько статистические оценки совпадают с истинными, свойствами генеральной совокупности? Для вычисления статистической ошибки выборочной средней M используется формула Стандартное отклонение отражает разброс всех вариантов относительно средней, а стандартная ошибка показывает пределы, в которых, с известной вероятностью, может располагаться средняя величина. В интервале M ± 1m средняя величина генеральной совокупности может находиться с вероятностью 68.3 %, в интервале M ± 2m - с вероятностью 95.5 %, а в пределах M ± 3m - с вероятностью 99.7 %.

Метод нахождения доверительных интервалов в случае анализа небольших выборок найден английским статистиком Госсетом, известном под псевдонимом Стьюдент Величина t показывает, во сколько раз необходимо увеличить стандартную ошибку выборочного статистического параметра для того, что бы при определенном уровне вероятности судить о тех пределах, в которых располагается генеральное значение. Величина t напрямую зависит лишь от уровня вероятности P и числа степеней свободы n, которое равно глубине выборки -1. (объем выборки без числа ограничений) В большинстве биологических исследований принимают P=0.95 (то есть 95 случаев из 100), в наиболее ответственных случаях или 0.999

Сравнение средних величин В биологических экспериментах особое значение имеют различия, на основании которых судят об эффективности действия тех или иных факторов, например, по разности между опытной и контрольной группами делают заключение о результатах опыта. Важно оценить статистическую достоверность разности, т. е. определить, можно ли данное различие считать закономерным, характерным для всей генеральной совокупности и рассматривать его как результат действия особенных факторов, или же оно случайно и является следствием недостаточного количества данных и в следующих опытах может не проявиться Обнаружение достоверных отличий статистических параметров – первый шаг к познанию новых биологических закономерностей, причем количественно доказанных

Критерии достоверности отличий Сравнения выборочных средних – это вопрос о том, действовал ли при составлении одной из выборок новый систематический фактор по сравнению с другой выборкой Отличия между средними могут иметь два противоположных источника: 1. Обе выборки взяты из одной генеральной совокупности, но средние отличаются в силу ошибки репрезентативности. 2. Выборки взяты из разных генеральных совокупностей, отличие средних вызвано, в основном, действием разных доминирующих факторов (а также и случайно). Исходно предполагается (Но): «достоверных отличий между средними нет»

.Поскольку выборочные средние имеют нормальное распределение, критерий отличия двух выборочных средних также базируется на свойствах нормального распределения: в границах M общ. ±1.96m (или приблизительно M общ. ± 2m) выборочные средние арифметические отличаются от общей (генеральной) средней по случайным причинам. Критерий Стьюдента ~ t (α, df ). Полученное значение критерия t Стьюдента сравнивают с табличным при выбранном уровне значимости (обычно для α = 0.05) и числе степеней свободы (объемы выборок без числа ограничений, df = n 1 + n 2 2). Если полученная величина критерия меньше табличной, то при данном уровне значимости и числе степеней свободы различия между параметрами недостоверны. Это говорит о том, что различия случайны, определенного вывода сделать нельзя, нулевая гипотеза остается неопровергнутой.

Мера варьирования величины – σ, (сигма), коэффи- циент вариации «Именованность» - недостаток среднего квадратического отклонения, как мерила изменчивости признаков устраняется, если выразить этот показатель в процентах от величины средней арифметической данного распределения, Полученный таким образом показатель называется коэффициентом вариации Если коэффициент вариации больше 33%, выборка неоднородна Чем больше случайных факторов, чем они сильнее, тем дальше разбросаны варианты вокруг средней и тем больше среднее квадратичное отклонение. Термин «случайное» - синоним слова «неизвестное», «неподконтрольное». Пока мы каким-либо способом не выразим интенсивность фактора (группировкой, градацией, числом), до тех пор он останется фактором, вызывающим случайную изменчивость.

Оценка репрезентативности выборки В практике биометрического анализа используется относительная ошибка измерений – «показатель точности опыта» – отношение ошибки средней к самой средней арифметической, выраженное в процентах: Чем точнее определена средняя, тем меньше будет ε, и наоборот. Точность считается хорошей, если ε меньше 3%, и удовлетворительной при 3 < ε < 5%

Оптимальный объем выборки Для непрерывных признаков метод состоит в том, чтобы, используя известные соотношения между средней, стандартным отклонением, ошибкой средней, плотностью вероятности распределения Стьюдента, найти число степеней свободы, соответствующее доверительному интервалу для средней при уровне значимости α = 0.05 Где CV – приблизительное значение коэффициента вариации (%), ε – планируемая точность оценки (погрешности) (%). п – объем выборки, t – граничное значение из таблицы распределения Стьюдента (таблица), соответствующее принятому уровню значимости при планируемом объеме выборки,

Пример оценки объема выборки Рассчитаем необходимый объем условной выборки, обеспечивающий хорошую точность ε = 3%, для уровня значимости α = 0.05 (t = 1.98, для df 100) и для коэффициента вариации CV = 12% (такова относительная изменчивость многих размерно-весовых признаков животных): 63 экз

Несколько примеров В процессе анализа данных, как правило, присутствуют следующие основные этапы: 1. Ввод данных 2. Преобразование данных 3. Визуализация данных 4. Статистический анализ 5. Представление результатов

Что позволяет программа Excel

Статистические показатели

Длина корней проростков пшеницы

Длина корней гороха Длина корней проростков гороха Электрофорез, в сочетании с иммунохимическими методами (блоттинг) Электрофорез