Психометрика. Психометрика - это дисциплина, изучающая теорию и методику психологических измерений. является разделом прикладной статистики. включает.

Презентация:

Advertisements

Похожие презентации

Психометрика. Психометрика - это дисциплина, изучающая теорию и методику психологических измерений. является разделом прикладной статистики. включает.

Advertisements

6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.

Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.

ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.

Лекция по МОП ТЕМА: Измерение связи двух признаков.

5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.

Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.

Доверительный интервал и доверительная вероятность.

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Предмет и методы Лекция 2.

Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции

1. Сущность выборочного наблюдения, причины и условия его применения. 2. Теоретические основы выборочного наблюдения. Виды и способы отбора единиц в выборочную.

СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.

Лекция 1 «Введение». Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. Специфической.

Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.

Лекция 5. Модели надежности программного обеспечения Учебные вопросы: 1. Классификация моделей надежности 2. Аналитические модели надежности 3. Эмпирические.

1 Термины и определения Муратова Елена Анатольевна.

Качество теста Константин Титов, Центр оценки в образовании и методов обучения Бишкек, Кыргызстан 6 ноября 2009 года.

6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 2. Доверительные интервалы 2-1. Доверительный интервал для доли 2-2. Доверительный.

Разработка тестов знаний. Формирование критериев оценки Фокус-группа для определения областей знаний, которые подлежат проверке: 1)Специалисты направления.

«Совершенствование системы оценки уровня подготовки специалистов в области защиты населения и территорий, минимизации последствий радиоактивного загрязнения.

Транксрипт:

Психометрика

Психометрика - это дисциплина, изучающая теорию и методику психологических измерений. является разделом прикладной статистики. включает в себя две основные исследовательские задачи, а именно: 1) создание инструментов и построение процедур измерения; 2) развитие и усовершенствование теоретических подходов к измерению.

Из истории психометрики Фрэнсис Гальтон Чарльз Спирмен Рональд Фишер Карл Пирсон Джордж Раш и др.

Теории измерений (психометрики) Классическая теория тестов (CTT, Classical Test Theory) Теория содержательной выборки (domain sampling theory) Пунктовая теория тестов (IRT, Item Response Theory) Теория генерализуемости (generalizability, G-theory)

Теории измерений (психометрики) Классическая теория тестов (CTT, Classical Test Theory) Теория содержательной выборки (domain sampling theory) Пунктовая теория тестов (IRT, Item Response Theory) Теория генерализуемости (generalizability, G-theory)

Классическая теория тестов Основные понятия: 1.1.Надежность 1.2. Стандартная ошибка измерения 1.3. Валидность 1.4. Дискриминативность 1.5. Репрезентативность

1.1. – 1.2. Надежность и стандартная ошибка измерения

Истинные баллы и тестовые баллы Представьте, что Мэри Джонс заполняет тест, состоящий из 50 пунктов, несколько сотен раз. Также представьте, что: При каждом новом заполнении теста она не помнит, как проходили предыдущие тестирования и что она отвечала Реальный уровень выраженности у нее измеряемой способности не изменился и оставался постоянным при каждом тестировании.

Распределение первых 100 баллов, набранных Мэри

Мы предположили, что истинный балл респондента постоянен, следовательно, дисперсия – это целиком результат ошибки измерения. Среднее арифметическое этого распределения (24) и является истинным баллом Мэри. Стандартное отклонение (5) описывает величину ошибок, которые допускались при проведении тестирования. Эта величина - стандартное отклонение ошибок измерения - известно как стандартная ошибка измерения, SEm

Источники ошибки измерения 1 Систематические. Имеют предсказуемый эффект и приводят к получению некоторого отклонения, которое поддается измерению. Например, этнические групповые различия в результатах тестирования отражают систематическое отклонение, если различия в результатах выполнения теста в этих двух группах является внешним и не обусловлено самой измеряемой способностью или чертой. Случайные. Оказывают разноплановые воздействия на тестовый балл, иногда завышая его, а иногда занижая.

Разделение между этими двумя классами ошибок не всегда четко выражено. Например, предшествующий опыт заполнения психологических тестов. Фактор опытности в психологическом тестировании добавляет в тестовые баллы какую-то долю «случайной» дисперсии. Тем не менее, если бы мы знали историю предыдущих тестирований для каждого респондента, а также взаимосвязь опыта тестирований с успешностью выполнения данного теста, мы бы могли теоретически контролировать этот источник ошибки.

Источники ошибки измерения 2 ошибка, связанная с респондентом ошибка, связанная с тестом ошибка, связанная с процедурой тестирования

Продолжаем мысленный эксперимент Тестовый балл = истинный балл (отражающий реальный уровень выраженности измеряемой характеристики) + ошибка измерения Например, если Мэри набрала балл 27, можно сказать, что ошибка измерения составила +3: 27 = Если она набрала 22, можно было бы сказать, что ошибка составили -2: 22 = 24 – 2

Каждый тестовый балл можно представить в виде суммы «истинной» части, которая не изменяется от тестирования к тестированию, и «ошибки», которая изменяется случайным образом. Ошибка имеет среднее арифметическое, равное нулю, и стандартное отклонение, равное SEm – в данном случае 5.

В теории для любого данного теста ошибка измерения для различных респондентов равна. Что отличается – так это их истинные баллы.

Если мы рассмотрим популяцию респондентов, их истинные баллы будут распределены вокруг популяционного среднего. Средний истинный балл и средний тестовый балл также совпадут, поскольку ошибка измерения имеет среднее, равное нулю. Ошибки измерения будут распределены вокруг среднего, равного нулю, со стандартным отклонением, равным SEm

Любое распределение тестовых баллов содержит в себе два компонента – дисперсию истинных баллов и дисперсию ошибки. Поскольку средняя ошибка равна нулю, добавление дисперсии ошибки к истинным баллам попросту увеличивает общий разброс данных, но не меняет среднее.

Промежуточные выводы Во время тестирования каждый респондент обладает «истинным» уровнем выраженности характеристики, которую мы пытаемся измерить Получаемые нами тестовые баллы «загрязнены» различными источниками ошибки. Некоторые из этих ошибок случайны, некоторые систематические. Классическая теория измерений (и многие другие психометрические теории) имеет дело со случайными, несисистематическими ошибками. Среднее арифметическое случайных ошибок измерения стремится к нулю с увеличением размера выборки. Стандартное отклонение распределения ошибок измерения для популяции в целом называется стандартной ошибкой измерения (SEm). В целом ошибки измерения влияют на дисперсию тестовых баллов, но не влияют на их среднее. Чем больше ошибки содержится в процессе измерения, тем сильнее тестовые баллы будут разбросаны относительно истинных баллов.

Надежность Надежность теста – это точность, с которой тест измеряет истинные баллы. Если бы ошибки измерения не было, тесты были бы идеально надежными: тестовые баллы совпадали бы с истинными баллами. И наоборот, если бы вся вариативность тестовых баллов объяснялась исключительно ошибкой измерения, у теста была бы нулевая надежность. Таким образом, надежность и стандартная ошибка измерения – две стороны одной медали. Если надежность высока, SEm будет низкой. Тестовые баллы будут содержать мало ошибки и будут близки к истинным баллам. Если надежность низка, SEm будет высокой, и тестовые баллы будут содержать большое количество ошибки.

Формулы

Для дальнейшего обсуждения важно понимать, что, дисперсии можно просто складывать друг с другом, поскольку дисперсия – это количество. Например, если мы хотим знать, сколько дисперсии обозначается двумя квадратами (сторона одного из которых равна 3 единицам, а сторона другого – 10 единицам), необходимо сложить их площади: 3 х 3 = 9 – дисперсия, выражаемая первым квадратом 10 х 10 = 100 – дисперсия, выражаемая вторым квадратом = 109 – общая дисперсия Квадратный корень из 109 = Таким образом, сторона квадрата, выражающего суммарную дисперсию, будет равна 10.44

В нашем гипотетическом исследовании стандартное отклонение истинных баллов составляет 7, а стандартная ошибка измерения 5. Исходя из этого: 1. Какова дисперсия ошибки измерения? 2. Какова дисперсия истинных баллов? 3. Какова дисперсия тестовых баллов? 4. Каково стандартное отклонение тестовых баллов? 5. Каково значение надежности теста (исходя из данного выше определения)?

Конечно, на практике распределения истинных баллов и ошибки нам неизвестны. Тем не менее, нам известно распределение тестовых баллов, и исходя из него мы можем оценить надежность (что будет показано далее). Нам необходимо каким-то образом получить SEm из стандартного отклонения тестовых баллов и надежности. Формулы

Проверим это уравнение и подставим в него значения, которые нам известны из гипотетического исследования (стандартное отклонение = 8.6 и надежность = 0.66): = 8.6 x = 5.0 Как видим, получается искомое значение 5.

Формулы

Используя значения из нашего гипотетического исследования (SEm = 5, надежность = 0.66, стандартное отклонение = 8.6), вычислите каждое из этих значений из двух остальных. (а) SEm = ? (б) Стандартное отклонение = ? (в) Надежность = ? 2. Если стандартное отклонение тестовых баллов равно 1057, а SEm равно 438, чему равна надежность теста? 3. Тест имеет надежность 0.85 и SEm = 5.6. Какой величины следует ожидать стандартное отклонение в выборке тестовых баллов?

Важное качество SEm заключается в том, что она измеряется в той же шкале, что и сам тест (выражается либо в сырых баллах, либо в одной из стандартных шкал типа z-оценок, Т- баллов и т.д.). Надежность же, с другой стороны, всегда расположена в диапазоне от 0.0 до 1.0. Этот факт делает SEm более удобным на практике, нежели надежность. Логика рассуждений, представленная выше, иллюстрирует важную особенность психометрики. Зачастую нам приходится оценивать вещи, которые мы хотим знать, но не можем измерить (т.е. истинные баллы), исходя из вещей, которые мы можем измерить, но которые подвержены ошибке (т.е. тестовых баллов). Показатель надежности позволяет нам оценить SEm и тем самым получить представление о том, насколько сильно в тестовых баллах проявляется ошибка измерения. Конечно, остается вопрос о том, откуда брать сам показатель надежности.

Промежуточные выводы Надежность – мера того, насколько точно проведено измерение Надежность выражается как отношение (между 0 и 1) дисперсии истинных баллов к дисперсии тестовых баллов Формально говоря, стандартная ошибка измерения – это стандартное отклонение в распределении ошибок измерения Стандартная ошибка измерения показывает, какова доля случайной ошибки в проведенном нами измерении Стандартная ошибка измерения может быть получена из стандартного отклонения тестовых баллов и надежности самого теста Стандартная ошибка измерения полезна тем, что она выражается в той же шкале, что и сырые баллы

Способы оценки надежности Тест-ретестовая надежность: корреляция между шкалами теста, проведенного на одной и той же выборке людей в два различных момента времени Надежность альтернативных форм: корреляция между шкалами в двух различных версиях одного теста, проведенного на одних и тех же людях Надежность по гомогенности: корреляции между пунктами или частями шал при проведении теста один раз на одной выборке респондентов

Тест-ретестовая надежность Поскольку частично тест-ретестовая корреляция зависит от устойчивости (стабильности) черт во времени, этот коэффициент зачастую называют коэффициентом стабильности (устойчивости) признака. В случаях, когда тест и ретест проводятся с небольшим промежутком времени, тест-ретестовую корреляцию иногда называют коэффициентом зависимости.

Несколько вариантов Шкала А является надежной мерой устойчивой черты. Тестовый балл дает довольно точную оценку истинного балла, а сам истинный балл относительно устойчив во времени. Шкала Б является надежной мерой неустойчивой черты. Тестовый балл дает довольно точную оценку истинного балла, но сам по себе истинный балл изменчив во времени. Шкала В является ненадежной мерой устойчивой черты.

Надежность альтернативных (параллельных) форм Коэффициент корреляции между двумя формами теста называется коэффициентом эквивалентности. Коэффициенты эквивалентности обычно ниже, чем коэффициенты стабильности (при условии, что измерения проводятся с одинаковым временным интервалом). Это и понятно, поскольку в данном случае добавляется еще один источник ошибки – разные формы теста. Но это не означает, что надежность параллельных форм ниже.

Надежность по гомогенности Надежность частей теста * Надежность по внутренней согласованности *

Надежность частей теста Проблема: тест, имеющий лишь 50 % пунктов, будет гораздо менее надежным. Это означает, что, если мы хотим оценить надежность полного теста (со 100 % пунктов), в данный коэффициент необходимо вносить поправки Поправка Спирмена-Брауна: Несмотря на легкость в вычислении, надежность частей теста имеет серьезный недостаток. Корреляция между двумя частями теста зависит от того, каким именно образом тест был разделен пополам

Надежность по внутренней согласованности Если представить тест как набор очень маленьких параллельных форм, каждая из которых состоит всего из одного пункта, можно относиться к корреляциям между пунктами как к корреляции частей теста. Если мы возьмем все эти межпунктовые корреляции, а затем внесем в них поправку, учитывая тот факт, что «целый» тест гораздо длиннее, чем отдельные его части, получим коэффициент внутренней согласованности пунктов теста. Если k – это количество пунктов теста, а R – средняя межпунктовая корреляция, то:

На практике коэффициент внутренней согласованности не вычисляется с использованием усредненной межпунктовой корреляции, а использует формулу, основанную на пропорции суммы дисперсий отдельных пунктов (или частей теста) и дисперсии общего тестового балла. Это уравнение в общем виде известно как формула альфа Кронбаха. Зачастую коэффициенты внутренней согласованности называют коэффициентами Альфа или Альфа Кронбаха. Также распространены формулы KR-20 и KR-21 (Кьюдер и Ричардсон, уравнения номер 20 и 21). Эти формулы аналогичны альфа Кронбаха.

КОЭФФИЦИЕНТ КЬЮДЕРА- РИЧАРДСОНА r – количество заданий теста p – доля испытуемых, справившихся с каждым заданием; q = 1 – p.

КОЭФФИЦИЕНТ КРОНБАХА

Уравнения, вычисляющие альфа Кронбаха и KR-20 и KR-21, основаны на предположениях о том, что: Все пункты измеряют один фактор или черту При условии довольно большой выборки все межпунктовые корреляции стали бы равными При условии большой выборки дисперсии всех пунктов стали бы равными. В основе уравнения KR-21 лежит еще одно допущение: все пункты теста имеют в среднем одинаковый уровень трудности.

Промежуточные выводы Существуют три основных метода оценки надежности: тест-ретестовая, надежность параллельных форм и надежность по гомогенности Каждый из этих методов включает различные источники ошибки и потому подвержен различным искажениям (например, тест-ретестовая надежность в большей степени подвержена эффектам научения, нежели надежность по внутренней согласованности). Корреляции частей теста должны включать поправки по формуле Спирмена-Брауна, чтобы получить коэффициент, который относится ко всему тесту целиком, а не к отдельным его частям. Формулы для вычисления коэффициентов типа альфа Кронбаха основаны на межпунктовых корреляциях.

Какой показатель надежности следует использовать и насколько надежным должен быть тест? В следующей таблице показаны приблизительные интервалы ошибки, связанные с коэффициентами надежности, в зависимости от размера выборки. Например, если наш коэффициент надежности основан на выборке в 30 человек, любой коэффициент надежности, который мы получаем на такой выборке, имеет диапазон ошибки, равный Рассмотрим ретестовую надежность величиной 0.7. На выборке в 30 человек можно быть на 95 % уверенным в том, что истинная надежность выше приблизительно 0.30 (другими словами, возможно, что надежность довольно низка). С другой стороной, с выборкой в 500 человек можно быть на 95 % уверенным в том, что истинный коэффициент надежности превышает 0.62.

Приблизительные рекомендации При условии достаточной величины выборки (200 человек и более), обычно следует ожидать надежности 0.70 для параллельных форм, чуть выше для тест-ретеста и еще чуть выше для внутренней согласованности (по крайней мере 0.80). Для высокоспецифичных тестов следует ожидать коэффициентов внутренней согласованности на уровне 0.90 или даже Более высокие значения надежности, как правило, получаются только в тестах настолько узких, что возможности их практического применения находятся под вопросом. Тест-ретестовая надежность снижается с увеличением промежутка времени между тестом и ретестом, а также со снижением стабильности измеряемого признака. Для тестов способностей и временного интервала в 1-2 недели следует ожидать значений между 0.70 и Тесты личности обычно обладают более низкой ретестовой надежностью (от 0.60 до 0.70).

Интервалы доверия

Сигмы и вероятности

интервал доверия используется для оценки возможной величины истинного балла. Таким образом, обычно говорят «с вероятностью 95 процентов можно утверждать, что истинный балл лежит в диапазоне от 17 до 37» вместо «95 процентов всех тестовых баллов для данного истинного балла будут располагаться в интервале от 14 до 34».

Интервалы доверия 95-процентные (X ± 1.96*SE) 99-процентные (X ± 2.58*SE) 99.9-процентные (X ± 3.26*SE)

Зачем нужны интервалы доверия на практике? Обратная связь клиенту, интерпретации, отчеты!

Валидность

Валидность и надежность Невалидно. Ненадежно. Надежно. Невалидно. Валидно. Надежно. Довольно валидно. Не слишком надежно Нет просто валидности. Есть валидность ИНТЕРПРЕТАЦИИ ТЕСТОВЫХ БАЛЛОВ

Валидность Согласно одному их основных определений, валидность - это степень того, насколько тест измеряет именно то, для чего он предназначен. Несмотря на то, что это определение является относительно общепринятым и недвусмысленным, оно несколько поверхностно. Согласно более точному определению, отражающему более современный этап в развитии психометрики, валидность – это «степень эмпирической и теоретической поддержки интерпретации тестовых баллов в предполагаемых сферах использования» теста (AERA, APA, & NCME, 1999, с.9).

Валидность Зависит от цели тестирования Например, линейка валидна для измерения длины, но не объема Вопрос количества (насколько валидно?) Специфична для конкретной цели Не может быть напрямую измерена, оценивается исходя из эмпирических свидетельств валидности

Время вопросов…? Формат вопросов с вынужденным выбором обладает высокой надежностью, но низкой валидностью (правда или нет?) Тесты достижений обладают высокой надежностью и высокой валидностью (правда или нет?) Когда большинство респондентов дают на пункт неправильный ответ, говорят, что пункт ненадежен (правда или нет?) Когда в тесте знаний содержатся пункты, которые не покрывались во время лекций (ну как у меня сейчас) – говорят, что тест ненадежен (правда или нет?) Тесты пункта, которые не измеряют те явления, которые они призваны измерять, - невалидные пункты. (правда или нет?) Валидный тест иногда может быть ненадежным (правда или нет?)

Набор пунктов сам по себе не может являться валидным или невалидным. Валидность также не является свойством тестовых баллов, полученных при суммировании 48 пунктов теста. Валидность – это свойство авторской интерпретации тестовых баллов. Корректна ли авторская интерпретация тестовых баллов, полученных на наборе из 48 пунктах, в терминах способности к планированию, организованности и решительности? Психологический тест можно сравнить с молотком. Вам могут сказать, что молоток - полезный инструмент, однако польза, которую он приносит, зависит от того, для чего он используется.

вместо того, чтобы говорить, что «интерпретация баллов по шкале добросовестности NEO-PI-R как эмпирических показателей добросовестности валидна», иногда в целях более лаконичного выражения мысли говорится, что «шкала добросовестности в NEO-PI-R является валидной». Это не должно вносить путаницу. В психодиагностике валидность относится к интерпретации и применению тестовых баллов, но не к самому тесту.

Виды валидности Лицевая (очевидная) Конструктная Содержательная Дивергентная и конвергентная Структурная Критериальная 1. Прогностическая 2. Одномоментная (конкуррентная) 3. Ретроспективная

Рассмотрим некоторые из них…

Очевидная валидность Кажется ли респонденту, что тест измеряет именно то, что нужно? Например, шкала склонности к агрессии и насилию: какие пункты измеряют именно то, что заявлено? Вас когда-нибудь арестовывали? Вы были когда-либо вовлечены в драки? Вы легко выходите из себя? Вы спите в носках? Сложно ли контролировать свой гнев? Нравится ли вас спорт?

Содержательная валидность Отражено ли в тесте все содержание конструкта? Содержательная валидность обеспечивается Таблица спецификации

Угрозы содержательной валидности в тесте присутствует нерелевантное конструкту содержание. недостаточная представленность конструкта. Хотя тест и не должен содержать заданий, выходящих за рамки ключевого конструкта, он должен включать в себя по возможности весь объем содержания, имеющего отношение к конструкту. Словом, тест должен содержать полный спектр заданий, отражающих ключевой конструкт, - ни больше и ни меньше.

В действительности создателям и пользователям теста приходится находить компромисс между идеальной содержательной валидностью и ситуацией реального тестирования. Выше говорилось о том, что тест должен включать в себя задания, представляющие собой адекватную выборку из релевантного конструкту содержания (ни больше и ни меньше). Однако четких правил для определения того, что является «адекватной выборкой», не существует.

Критериальная валидность Величина корреляции между баллами по тесту (предиктор) и внешним объективным критерием. Конкуррентная: корреляция с критерием в тот же момент времени Прогностическая: корреляция с критерием, отсроченная во времени

Часто все виды валидности сводятся к: Содержательная Конструктная Критериальная

А современная точка зрения вообще все больше сводит их все к конструктной – и спектру эмпирических свидетельств, которые ее подтверждают

Эмпирические свидетельства валидности: содержание теста Уже рассмотрено – это содержательная валидность Здесь нужны эксперты, теория и таблица спецификации

Эмпирические свидетельства валидности: внутренняя структура теста важным вопросом валидности является соответствие между действительной внутренней структурой теста и той, которой он должен обладать. Для того чтобы тест мог быть валидно интерпретирован как инструмент измерения определенного конструкта, необходимо, чтобы его внутренняя структура совпадала с теоретически обоснованной структурой конструкта.

Эмпирические свидетельства валидности: внутренняя структура теста Факторный анализ – эксплораторный и конфирматорный факторный анализ позволяет работать по крайней мере с тремя фундаментальными проблемами, имеющими отношение к внутренней структуре теста. Во-первых, с его помощью можно выяснить, какое количество факторов содержится в том или ином наборе пунктов. Вторая проблема, решаемая с помощью факторного анализа - обнаружение связей между факторами / измерениями внутри многомерного теста. Третьей основной целью использования факторного анализа в связи с валидостью является определение того, какие пункты относятся к какому фактору.

Эмпирические свидетельства валидности: процесс ответа респондента на пункт Третий тип свидетельств валидности – совпадение между психологическими процессами, которые респонденты в действительности задействуют в процессе выполнения теста, и теми процессами, которые они должны задействовать. Установки на ответ!

Некоторые установки на ответ Установка на согласие Установка на средние ответы Установка на крайние ответы Социальная желательность Симуляция неблагополучия Случайное угадывание

Эмпирические свидетельства валидности: взаимосвязи с другими переменными четвертый тип эмпирических свидетельств валидности касается соответствия между тем, какие корреляции теста с другими переменными были обнаружены, и тем, какие корреляции должны были обнаружиться. Если наблюдаемый паттерн корреляции с другими тестами в целом соответствует теоретически предсказанному, это является свидетельством в пользу валидности интерпретации теста как показателя исследуемого конструкта. Корреляции дивергентные и конвергентные Корреляции конкуррентные и прогностические

Эмпирические свидетельства валидности: последствия тестирования В Стандарте образовательного и психологического тестирования говорится о том, что валидность включает в себя «преднамеренные и непреднамеренные последствия использования теста» (AERA, APA, & NCME, 1999, с.16). Так, например, необходимо обеспокоиться по поводу практики применения теста, если и сам этот тест, и конструкт, лежащий в его основе, больше «работают» на мужчин, чем на женщин. Являются ли тестовые баллы одинаково валидными (как показатель измеряемого конструкта) для респондентов обоих полов? Насколько велика разница в тех преимуществах, которые тест дает мужчинам и женщинам?

Общая схема процесса разработки тестов

Этап I. Организационный Шаг 1. Планирование проекта. Формулирование предварительных характеристик теста. Определение основных источников валидности. Выбор психометрических и исследовательских моделей. Составление подробного плана разработки теста. Организационные решения

Этап II. Содержательный Шаг 2. Определение содержания. Определение исходного теоретического концепта. Формирование репрезентативной выборки содержания. Описание ключевой феноменологии Шаг 3. Составление спецификации теста. Операционализация содержания. Выбор и фиксация формальных характеристик теста. Утверждение спецификации.

Этап III. Подготовительный Шаг 4. Разработка пунктов Разработка пунктов. Профессиональная редакция пунктов. Создание банка пунктов. Шаг 5. Сборка теста. Компоновка рабочих версий теста. Утверждение пробной версии теста

Этап IV. Исследовательский Шаг 6. Апробация, анализ и коррекция пунктов. Эмпирическая апробация пунктов. Отбор и переформулирование пунктов. Проверка внутренней согласованности и дискриминативности шкал. Повторный пилотаж (при необходимости). Утверждение состава и структуры теста Шаг 7. Уточнение процедуры тестирования. Уточнение процедуры и времени. Разработка инструкций. Утверждение рабочей версии теста. Шаг 8. Изучение и проверка валидности и надёжности. Исследование ретестовой надёжности. Изучение конструктной валидности. Проверка критериальной валидности. Утверждение окончательной версии теста. Корректорская проверка окончательной версии теста

Этап V. Стандартизационный Шаг 9. Массовые обследования для стандартизации. Формирование выборки стандартизации. Массовые обследования по плану. Стандартизация теста для различных групп. Фиксация способов перехода к нормам

Этап VI. Интерпретационный Шаг 10. Разработка схем интерпретации и диагностических отчётов. Описание алгоритмов обработки данных и схем анализа результатов. Описание принципов интерпретации результатов. Разработка критериев для диагностических выводов. Описание моделей составления отчётов. Разработка компьютерных программ обработки данных и составления отчётов

Этап VII. Технический Шаг 11. Написание технических отчётов. Подготовка подробной документации о результатах, полученных на всех этапах разработки теста. Составление технических отчётов о разработке и психометрической проверке теста. Шаг 12. Юридическое оформление. Юридические процедуры. Рецензирование методики. Сертификация методики Шаг 13. Издание. Подготовка руководства для пользователя. Издание методики

Этап VIII. Эксплуатационный Шаг 14. Сопровождение использования теста. Проверка основных психометрических характеристик методики другими исследователями. Дальнейшее изучение конструктной валидности. Создание новых форм и модификаций теста. Совершенствование пользовательских характеристик теста.