Экспертиза банков тестовых заданий.

Презентация:



Advertisements
Похожие презентации
Компьютерное тестирование: возможности, технологии, специфика.
Advertisements

ТЕСТИРОВАНИЕ Центральный филиал ГОУ ВПО РАП (г.Воронеж)
Лекция 6 Требования, предъявляемые к тестовым заданиям. Психолого-педагогические аспекты тестирования. План лекции: 1. Требования, предъявляемые к тестовым.
«Совершенствование системы оценки уровня подготовки специалистов в области защиты населения и территорий, минимизации последствий радиоактивного загрязнения.
МАСТЕР-КЛАСС Критериально-ориентированное педагогическое тестирование Модуль 3. Оценка надежности теста © РЭА им. Г.В. Плеханова © Управление качеством.
МАСТЕР-КЛАСС Критериально-ориентированное педагогическое тестирование Модуль 2. Внутренняя экспертиза тестов © РЭА им. Г.В. Плеханова © Управление качеством.
РАЗРАБОТЧИК Т.В.ПАЛИЕВА ПЕДАГОГИЧЕСКОЕ ТЕСТИРОВАНИЕ КАК СРЕДСТВО ИЗМЕРЕНИЯ КАЧЕСТВА ОБУЧЕНИЯ.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Методика организации тестового контроля знаний учащихся на уроках информатики.
МЕТОД ЭКСПЕРТНЫХ ОЦЕНОК. ЭКСПЕРТИЗА В УПРАВЛЕНИИ Роль экспертов в управлении: Основные трудности, связанные с информацией, возникающие при выработке сложных.
ПЕДАГОГИЧЕСКАЯ ДИАГНОСТИКА КАК УСЛОВИЕ ДИФФЕРЕНЦИАЦИИ В ШКОЛЕ.
Так С 1- С 4 представляют собой составное задание, или так называемый мини - тест. Он включает фрагмент источника и четыре вопроса - задания на его анализ.
Тест ( в переводе с английского испытание, проба, исследование) это стандартизированное задание, по результатам которого судят о знаниях, умениях, навыках.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Немешаева А.Г. МОУ СОШ Использование тест - контроля на уроках математики.
Лекция 2 – Идентификация закона распределения вероятностей одномерной случайной величины 2.1. Основные определения 2.2. Этапы обработки данных одномерной.
Автоматизированная система контроля знаний Составляющие системы: 1 – Экзаменационные вопросы (подобраны и сформулированы уже сотни.
Экзаменационные материалы для проведения государственной (итоговой) аттестации выпускников IX классов в новой форме в 2009 году и система оценивания результатов.
СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.
Иркутский государственный технический университет Центр технологий дистанционного обучения Проверка знаний в режиме ДО Ольга Викторовна Алаева, технический.
Транксрипт:

Экспертиза банков тестовых заданий

Концепция модернизации Российского образования Обеспечение современного качества образования Проблема оценки уровня качества образования Создание условий для повышения уровня качества образования Методы дидактического тестирования, БТМ НЕОБХОДИМОСТЬ ЭКСПЕРТИЗЫ И СЕРТИФИКАЦИИ СЕРТИФИКАЦИЯ ТМ

ЗАДАЧИ СЕРТИФИКАЦИИ ТЕСТОВЫХ МАТЕРИАЛОВ 1.Повышение качества ТМ 2.Повышение надежности тестов и уменьшение погрешности тестовых измерений 3.Подтверждение соответствия тестовых материалов методологическим требованиям 4.Стандартизация банков тестовых материалов

ЗАЯВИТЕЛЬ Орган сертификации (ОС) Испытательная лаборатория (ИЛ) Тестовые материалы Сертификат соответствия ГОСТ-Р Тестовые материалы Результаты испытаний Сопроводительные документы Рекомендации по доработке тестовых материалов Основные этапы сертификации ТМ

ВЫБОР РЕЗУЛЬТАТА ПРОВЕРКИ СТРУКТУРИЗАЦИЯ УЧЕБНОГО МАТЕРИАЛА СПЕЦИФИКАЦИЯ ТЕСТОВЫХ ЗАДАНИЙ РАЗРАБОТКА КОМПОЗИЦИИ ТЕСТА ОЦЕНКА ВАЛИДНОСТИ ТЕСТА ЭТАПЫ СОЗДАНИЯ БТЗ

ЭКСПЕРТИЗА БТЗ И ЗАДАНИЙ 6 ОРГАНИЗАЦИЯ БАНКА ТЕСТОВЫХ ЗАДАНИЙ КОРРЕКЦИЯ ТЕСТОВЫХ ЗАДАНИЙ ПРЕДВАРИТЕЛЬНОЕ ШКАЛИРОВАНИЕ КОРРЕКЦИЯ БТЗ ЭТАПЫ СОЗДАНИЯ БТЗ

ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТАЛЬНОГО ТЕСТИРОВАНИЯ КОРРЕКЦИЯ ПОКАЗАТЕЛЕЙ БТЗ и ШКАЛЫ ОЦЕНИВАНИЯ СЕРТИФИКАЦИЯ БТЗ ЭТАПЫ СОЗДАНИЯ БТЗ

Система комплексной экспертизы качества тестовых материалов состоит из четырех основных этапов: Предварительная экспертиза качества тестовых материалов, целью которой является отбор авторского материала, соответствующего требованиям тестов. Предварительная экспертиза качества тестовых материалов, целью которой является отбор авторского материала, соответствующего требованиям тестов. Экспертное оценивание (внутренняя экспертиза) качества тестов, проводимое после составления первого варианта теста. Экспертное оценивание (внутренняя экспертиза) качества тестов, проводимое после составления первого варианта теста. Тестологическая экспертиза, заключающаяся в проведении апробационного тестирования и расчета на основе его результатов статистических характеристик качества тестов и тестовых заданий. Тестологическая экспертиза, заключающаяся в проведении апробационного тестирования и расчета на основе его результатов статистических характеристик качества тестов и тестовых заданий. Комплексное оценивание качества тестовых заданий и тестов. Комплексное оценивание качества тестовых заданий и тестов.

Основные показатели качества тестовых заданий при экспертизе 1.Компактность формулировки ТЗ и вариантов ответов 2.Свернутость ТЗ 3.Логичность (формулировка ТЗ в виде суждения) 4.Корректность (отсутствие лишних слов) 5.Достаточность (необходимое количество вариантов ответов) 6.Содержательность (соответствие ТЗ содержанию ГОС или учебной программе) 7.Значимость (уровень значимости содержания ТЗ) 8.Время вывода заключения(ответа) 9.Однозначность ТЗ 10.Ясность смысла тестовой ситуации

ЭКСПЕРТИЗА КАЧЕСТВА ПЕДАГОГИЧЕСКОГО ТЕСТА Оценочный лист эксперта Оценочный лист эксперта Оценочный лист эксперта Оценочный лист эксперта

тестовое задание должно быть сформулировано в виде повествовательного предложения утвердительного вида; длина тестового задания должна быть меньше 250 символов, длина ответов не превышать 50; количество ответов для закрытой формы ТЗ должно быть от 4 до 6; ТЗ не должно содержать любой формы отрицания; запрещаются повторяющиеся фразы в дистракторах; Критерии отбраковки ТЗ

количество элементов в ТЗ на упорядочение и на соответствие не должно превышать 9; каждое ТЗ должно иметь хотя бы один ответ, помеченный как правильный; ТЗ не должно начинаться с предлога, частицы, союза; тестовое задание не допускает формы альтернативного вопроса; тестовое задание и варианты ответа к нему могут иметь поясняющие рисунки; по возможности, текст ТЗ не должен содержать сложноподчиненные конструкции; ТЗ, требующие открытый ответ, должны содержать в качестве эталонного ответа одно или два слова, либо число;

Математико-статистическая обработка эмпирических данных Интерпретация результатов обработки Статистика, возможно, знает все. Но ее знают не все. (Из статистических данных). Александр Самойленко

Подготовка к апробации Проверьте содержание и формулировку задач во взаимосвязи с друг другом Проверьте содержание и формулировку задач во взаимосвязи с друг другом Распределите задания в порядке возрастания трудности Распределите задания в порядке возрастания трудности Рассчитайте время выполнения заданий Рассчитайте время выполнения заданий Подготовьте четкие инструкции для учащихся и ведущих апробацию Подготовьте четкие инструкции для учащихся и ведущих апробациючеткие инструкции четкие инструкции

Цели апробации тестовых заданий Получение статистических характеристик апробируемых заданий (трудность, дифференцирующая способность и др.). Получение статистических характеристик апробируемых заданий (трудность, дифференцирующая способность и др.). Получение экспертных характеристик апробируемых заданий (корректность формулировок, значимость для итогового (промежуточного) контроля, соответствие действующим учебникам и др.). Получение экспертных характеристик апробируемых заданий (корректность формулировок, значимость для итогового (промежуточного) контроля, соответствие действующим учебникам и др.). Выявление проблемных заданий. Выявление проблемных заданий.

Апробация тестовых заданий Для получения достоверных результатов при проведении апробационных исследований необходимо, чтобы были выполнены следующие условия: Для получения достоверных результатов при проведении апробационных исследований необходимо, чтобы были выполнены следующие условия: Достаточная мотивированность тестируемых для данной работы Достаточная мотивированность тестируемых для данной работы Уровень прохождения учебного материала тестируемыми должен соответствовать уровню сложности и содержанию апробационного теста Уровень прохождения учебного материала тестируемыми должен соответствовать уровню сложности и содержанию апробационного теста Ответственность и заинтересованность организаторов апробации должны отвечать поставленным задачам Ответственность и заинтересованность организаторов апробации должны отвечать поставленным задачам Процедура апробационных тестирований должна соответствовать условиям проведения реального испытания Процедура апробационных тестирований должна соответствовать условиям проведения реального испытания

Протокол апробации Протокол апробации теста по ____________________ Протокол апробации теста по ____________________ название предмета название предмета Дата и время апробации______________________________________ Дата и время апробации______________________________________ Учебное заведение__________________________________________ Учебное заведение__________________________________________ Класс _____________________________________________________ Класс _____________________________________________________ Количество вариантов теста __________________________________ Количество вариантов теста __________________________________ Количество заданий в варианте теста __________________________ Количество заданий в варианте теста __________________________ Количество тестируемых ____________________________________ Количество тестируемых ____________________________________ Время тестирования_________________________________________ Время тестирования_________________________________________ Замечания по процедуре тестирования Замечания по процедуре тестирования ________________________________________________________ ________________________________________________________ __________ ________________________________________________________ ________________________________________________________ __________ Замечания к содержанию тестовых заданий: Замечания к содержанию тестовых заданий: Вариант теста, тестового задания, суть замечания Вариант теста, тестового задания, суть замечания «___» _________ 200__ г. «___» _________ 200__ г.

Характеристики тестовых заданий Показатель трудности заданий Показатель трудности заданий Коэффициент дискриминативности Коэффициент дискриминативности Процент учащихся, выбравших отдельные варианты ответа на каждое задание с выбором ответа или процент учащихся, выполнивших отдельные этапы задания со свободным ответом Процент учащихся, выбравших отдельные варианты ответа на каждое задание с выбором ответа или процент учащихся, выполнивших отдельные этапы задания со свободным ответом Надежность тестовых заданий Надежность тестовых заданий Валидность Валидность

Этап математико-статистической обработки можно разбить на ряд шагов Первый шаг Первый шаг Первый шаг Первый шаг Первый шаг связан с формированием матрицы тестовых результатов, в которой количественные данные представляются в систематизированной и сжатой форме, чтобы обеспечить их дальнейшую обработку и интерпретацию Первый шаг связан с формированием матрицы тестовых результатов, в которой количественные данные представляются в систематизированной и сжатой форме, чтобы обеспечить их дальнейшую обработку и интерпретацию

Номер испытуемого i Номер задания j

Второй шаг Второй шаг На втором шаге из матрицы тестовых результатов устраняются строки и столбцы, состоящие только из нулей или только из единиц На втором шаге из матрицы тестовых результатов устраняются строки и столбцы, состоящие только из нулей или только из единиц

Номер испытуемого i Номер задания j

Третий шаг Третий шаг Третий шаг связан с подсчетом индивидуальных баллов испытуемых и количеством правильных ответов испытуемых на каждое задание теста. Индивидуальный балл испытуемого получается суммированием всех единиц, полученных им за правильно выполненные задания теста. Например, 4-й испытуемый выполнил правильно 9 заданий, поэтому его индивидуальный балл равен 9. В строке ответов 2-го испытуемого стоят всего две единицы его индивидуальный баллл Х= 2 Третий шаг связан с подсчетом индивидуальных баллов испытуемых и количеством правильных ответов испытуемых на каждое задание теста. Индивидуальный балл испытуемого получается суммированием всех единиц, полученных им за правильно выполненные задания теста. Например, 4-й испытуемый выполнил правильно 9 заданий, поэтому его индивидуальный балл равен 9. В строке ответов 2-го испытуемого стоят всего две единицы его индивидуальный баллл Х= 2

Четвертый шаг На четвертом шаге осуществляется упорядочение матрицы результатов тестирования. Для этого производят перестановку столбцов, располагая числа R в порядке убывания Четвертый шаг На четвертом шаге осуществляется упорядочение матрицы результатов тестирования. Для этого производят перестановку столбцов, располагая числа R в порядке убывания Пятый шаг На пятом шаге производится графическая интерпретация эмпирических данных. Эмпирические результаты тестирования можно представить в виде полигона, гистограммы, сглаженной кривой или машинописного графика Пятый шаг На пятом шаге производится графическая интерпретация эмпирических данных. Эмпирические результаты тестирования можно представить в виде полигона, гистограммы, сглаженной кривой или машинописного графика Пятый шаг Пятый шаг

Упорядоченная матрица данных тестирования

Для построения кривых необходимо упорядочить результаты эксперимента Их можно записать в виде: несгруппированного ряда произвольной формы несгруппированного ряда произвольной формы ранжированного ряда частотного распределения ранжированного ряда частотного распределения распределения сгруппированных частот распределения сгруппированных частот

Графическое представление результатов тестирования полигон и столбиковая гистограмма

Шестой шаг Шестой шаг На шестом шаге оцениваются меры центральной тенденции совокупности результатов, полученные при выполнении теста. Меры центральной тенденции предназначены для выявления «центрального положения», вокруг которого в основном группируется множество значений рассматриваемого распределения данных На шестом шаге оцениваются меры центральной тенденции совокупности результатов, полученные при выполнении теста. Меры центральной тенденции предназначены для выявления «центрального положения», вокруг которого в основном группируется множество значений рассматриваемого распределения данных

Гистограмма эмпирического распределения

Среднее выборочное (среднее арифметическое) определяется суммированием всех значений совокупности и последующим делением на их число. Для совокупности индивидуальных баллов Среднее выборочное (среднее арифметическое) определяется суммированием всех значений совокупности и последующим делением на их число. Для совокупности индивидуальных баллов

Среднее арифметическое индивидуальных баллов испытуемых для рассматриваемого выше примера матрицы будет Среднее арифметическое индивидуальных баллов испытуемых для рассматриваемого выше примера матрицы будет

Седьмой шаг На седьмом шаге определяются описательные характеристики, служащие мерами изменчивости в группе данных по тесту Седьмой шаг На седьмом шаге определяются описательные характеристики, служащие мерами изменчивости в группе данных по тесту Для характеристик степени рассеяния отдельных значений вокруг среднего используются различные меры: размах, дисперсия, стандартное отклонение Для характеристик степени рассеяния отдельных значений вокруг среднего используются различные меры: размах, дисперсия, стандартное отклонение

Размах измеряет на шкале расстояние, в пределах которого изменяются все значения показателя в распределении. Например, распределения индивидуальных баллов табл.1 Размах измеряет на шкале расстояние, в пределах которого изменяются все значения показателя в распределении. Например, распределения индивидуальных баллов табл.1 Размах равен 9 1=8. Размах равен 9 1=8. Дисперсия. Подсчет дисперсии основан на вычислении отклонений каждого значения показателя от среднего арифметического в распределении. Для ученика с индивидуальным баллом выше среднего значение разности Хi-Хср будет положительно, а для тех, у кого результат ниже Xср, отклонение Xi-Xср меньше нуля. Дисперсия. Подсчет дисперсии основан на вычислении отклонений каждого значения показателя от среднего арифметического в распределении. Для ученика с индивидуальным баллом выше среднего значение разности Хi-Хср будет положительно, а для тех, у кого результат ниже Xср, отклонение Xi-Xср меньше нуля.

Дисперсия Если Хср=5 то Для 3-го ученика d 3 =x 3 -x ср =1-5=-4 Если Хср=5 то Для 3-го ученика d 3 =x 3 -x ср =1-5=-4 Для 2-го ученика d 2 =x 2 -x ср =2- 5=-3… и.т.д. Для 2-го ученика d 2 =x 2 -x ср =2- 5=-3… и.т.д. Получаем – Получаем – Мера изменчивости(дисперсия) обозначается символом Мера изменчивости(дисперсия) обозначается символом

Стандартное отклонение Кроме дисперсии, для характеристики меры изменчивости распределения удобно использовать еще один показатель вариации, который называется стандартным отклонением. Стандартное отклонение равно корню квадратному из дисперсии: Кроме дисперсии, для характеристики меры изменчивости распределения удобно использовать еще один показатель вариации, который называется стандартным отклонением. Стандартное отклонение равно корню квадратному из дисперсии:

Дисперсия играет важную роль в оценке качества нормативно-ориентированных тестов. Низкая дисперсия индивидуальных баллов говорит о слабой дифференциации испытуемых по уровню подготовки в тестируемой группе, т.е. о той ситуации, которая диаметрально противоположна основной цели создания нормативно-ориентированного теста. Дисперсия играет важную роль в оценке качества нормативно-ориентированных тестов. Низкая дисперсия индивидуальных баллов говорит о слабой дифференциации испытуемых по уровню подготовки в тестируемой группе, т.е. о той ситуации, которая диаметрально противоположна основной цели создания нормативно-ориентированного теста. Излишне высокая дисперсия, характерная для случая, когда все учащиеся отличаются по числу выполненных заданий, также грозит неприятными последствиями и требует переработки теста. Излишне высокая дисперсия, характерная для случая, когда все учащиеся отличаются по числу выполненных заданий, также грозит неприятными последствиями и требует переработки теста. При переработке теста следует руководствоваться простым правилом: При переработке теста следует руководствоваться простым правилом: величину X сравнивают с утроенным стандартным отклонением. Если это равенство выполняется, то дисперсия оптимально высока и можно принять гипотезу о нормальности распределения. величину X сравнивают с утроенным стандартным отклонением. Если это равенство выполняется, то дисперсия оптимально высока и можно принять гипотезу о нормальности распределения.

Трудность заданий СУБЪЕКТИВНАЯ СУБЪЕКТИВНАЯ 1. Условия решения задачи 2. Уровень формирования основных навыков 3. Состояние испытуемого СТАТИСТИЧЕСКАЯ СТАТИСТИЧЕСКАЯ Определяется долями выборки решивших и не решивших задачу испытуемых

Трудность заданий Характеристика задачи теста, отражающая статистический уровень её решаемости в данной выборке – P j ( доля правильных ответов ). Рассчитывается как отношение числа тестируемых правильно выполнивших задание- R j, к общему числу тестируемых- N. Характеристика задачи теста, отражающая статистический уровень её решаемости в данной выборке – P j ( доля правильных ответов ). Рассчитывается как отношение числа тестируемых правильно выполнивших задание- R j, к общему числу тестируемых- N.

Представление о трудности заданий теста легко получить путём анализа гистограммы, такой, как, например, на рисунке. В рассматриваемом примере явно просматриваются недостатки в подборе трудности заданий теста

Хорошо сбалансированный по трудности тест В хорошо сбалансированном по трудности тесте есть несколько самых трудных заданий со значениями р 0. Есть несколько самых легких с р 1. Остальные задания по значениям P занимают промежуточное положение между этими крайними ситуациями и имеют в основном трудность 60-70%. В хорошо сбалансированном по трудности тесте есть несколько самых трудных заданий со значениями р 0. Есть несколько самых легких с р 1. Остальные задания по значениям P занимают промежуточное положение между этими крайними ситуациями и имеют в основном трудность 60-70%.

Факторы, влияющие на норму трудности ТЗ образ мышления, на который направлено ТЗ; количество концептов, необходимых для решения ТЗ; форма ТЗ; глубина расположения ТЗ в спецификации; количество заключений (вариантов ответов); уровень значимости ТЗ. Норма трудности определяется разработчиком ТЗ и указывает субъективную величину того, насколько тяжело будет решить данное тестовое задание испытуемому с минимальным уровнем подготовки.

Рекомендации по назначению нормы трудности 1. Норма трудности ТЗ может оцениваться с учетом количества используемых концептов, необходимых для поиска правильного решения. Под концептом в дальнейшем понимается некоторое умозаключение (формула, правило, аксиома и т.д.), позволяющее приблизить правильное решение ТЗ. Чем больше шагов нужно выполнить для получения правильного ответа, тем выше норма трудности, тем сложнее считается ТЗ.

Рекомендации по назначению нормы трудности 2. Норма трудности ТЗ зависит от образа мышления, на который направлено ТЗ.

3. Если ТЗ направлено на «опознание» какого-то объекта или на проверку «знания-знакомства», то такое ТЗ следует считать простым. Рекомендации по назначению нормы трудности

4. Если ТЗ направлено на выбор одного варианта ответа из многих с помощью знания всего одного концепта, то такое ТЗ следует считать простым. Рекомендации по назначению нормы трудности

5. Если ТЗ открытого типа направлено на выявление знания определения односложного базового термина, то такое ТЗ следует считать простым.

6. Если ТЗ направлено на применение усвоенных ранее знаний в типовых ситуациях (т.е. в тех ситуациях с которыми знаком испытуемый) или на проверку «знаний воспроизведения копии», то такое ТЗ следует считать ТЗ среднего уровня сложности. К ТЗ такого уровня сложности следует относить высказывания конъюнктивного или дизъюнктивного вида.В некоторых случаях к ТЗ такого уровня сложности могут быть отнесены ТЗ на соответствие и порядок.

7. Если ТЗ направлено на применение усвоенных знаний и умений в нестандартных условиях (т.е. в условиях, ранее не знакомых испытуемому) или на проверку «знаний умения и применения», то такое ТЗ следует считать сложным. К ТЗ такого уровня сложности относятся задания, сформулированные в виде утверждений импликативного типа.(если…то) Такие задания требуют применения рассуждений в форме дедуктивного, индуктивного вывода и аналогии, причем для получения окончательного ответа необходима некоторая последовательность умозаключения (несколько концептов).

8. Назначение нормы трудности можно производить с учетом формы ТЗ. При этом наиболее простой формой ТЗ считается закрытая форма. Самая сложная форма ТЗ - на упорядочение и на соответствие. Открытая форма довольно часто бывает у ТЗ со средним уровнем сложности.

9. Назначение нормы трудности можно осуществлять, исходя из принадлежности ТЗ основному и дополнительному материалам (уровень значимости ТЗ). Очевидно, что для каждой дисциплины есть определённый набор базовых понятий, например, прописанных в ГОСе, а есть понятия, относящиеся к дополнительному материалу, то есть материалу, который даётся лишь наиболее успешно обучающимся группам учащихся. Поэтому, если ТЗ раскрывает базовое понятие, то такое задание можно считать простым, если же ТЗ принадлежит к дополнительному материалу, то его можно считать сложным.

10. Назначение нормы трудности можно осуществлять, исходя из принадлежности ТЗ уровню «глубины» спецификации теста. Если ТЗ раскрывает самый нижний уровень иерархии спецификации теста (например, некоторое «Понятие»), то такое задание будет легким. Принадлежность ТЗ средним уровням иерархии спецификации теста (например, некоторой «Теме» или «Подтеме») повышает норму трудности - средний уровень сложности. Наконец, ТЗ, относящееся к верхнему уровню, корню дерева иерархии (например, к «Разделу», «Главе»), можно считать сложным.

11. Увеличение количества дистракторов также влияет на увеличение нормы трудности ТЗ.

Факторы, влияющие на норму трудности ТЗ образ мышления, на который направлено ТЗ; количество концептов, необходимых для решения ТЗ; форма ТЗ; глубина расположения ТЗ в спецификации; количество заключений (вариантов ответов); уровень значимости ТЗ.

ДИСКРИМИНАТИВНОСТЬ ТЕСТОВОГО ЗАДАНИЯ Дискриминативностью (discriminatory power) называется способность задания дифференцировать учеников на лучших и худших Высокая дискриминативность важная характеристика удачного тестового задания

Значения r дис для теста из 42 заданий

Значения индекса r дис для заданий теста обычно представляют собой десятичную дробь, принадлежащую интервалу [-1; 1 ]. Максимального значения 1,00 индекс r дис достигнет в том случае, когда все ученики из подгруппы лучших верно выполнят j-е задание теста, а из подгруппы худших это задание не выполнит верно ни один ученик. В этом случае задание будет обладать максимальным дифференцирующим эффектом. Значения индекса r дис для заданий теста обычно представляют собой десятичную дробь, принадлежащую интервалу [-1; 1 ]. Максимального значения 1,00 индекс r дис достигнет в том случае, когда все ученики из подгруппы лучших верно выполнят j-е задание теста, а из подгруппы худших это задание не выполнит верно ни один ученик. В этом случае задание будет обладать максимальным дифференцирующим эффектом. Нулевого значения индекса r дис достигнет в том случае, когда в обеих подгруппах будут равны доли учеников, правильно выполнивших j-е задание теста. Нулевого значения индекса r дис достигнет в том случае, когда в обеих подгруппах будут равны доли учеников, правильно выполнивших j-е задание теста. И наконец минимальное значение r дис = -1 будет в ситуации, когда данное задание теста все сильные ученики сделали неверно, а все слабые верно. И наконец минимальное значение r дис = -1 будет в ситуации, когда данное задание теста все сильные ученики сделали неверно, а все слабые верно. Естественно, что задания второго и третьего типа с r дис - 0 или r дис < 0 из теста следует удалить Естественно, что задания второго и третьего типа с r дис - 0 или r дис < 0 из теста следует удалить

Типичные недостатки Излишняя сложность, запутанность формулировки Излишняя сложность, запутанность формулировки Неоднозначность условий Неоднозначность условий Очевидность решения Очевидность решения Зависимость результатов от памяти или других индивидуальных особенностей испытуемого Зависимость результатов от памяти или других индивидуальных особенностей испытуемого Абсурдность, нереальность вариантов ответов Абсурдность, нереальность вариантов ответов Появление двух или более правильных ответов, не оговоренное в условии Появление двух или более правильных ответов, не оговоренное в условии

Восьмой шаг Восьмой шаг Восьмой шаг предназначен для вычисления показателей связи между результатами учеников по отдельным заданиям теста. При оценке качества заданий важно понять, существует ли тенденция, когда одни и те же ученики добиваются успеха в какой-либо паре заданий теста Восьмой шаг предназначен для вычисления показателей связи между результатами учеников по отдельным заданиям теста. При оценке качества заданий важно понять, существует ли тенденция, когда одни и те же ученики добиваются успеха в какой-либо паре заданий теста Корреляция в широком смысле этого слова означает связь между явлениями и процессами Корреляция в широком смысле этого слова означает связь между явлениями и процессами

Коэффициент корреляции Пирсона

Для оценки связи между результатами выполнения двух заданий теста коэффициент корреляции Пирсона необходимо преобразовать, поскольку результаты выполнения заданий представляются в дихотомической шкале. Преобразованный коэффициент Пирсона, вычисляемый по дихотомическим данным, называется коэффициентом «фи». Где Рjl-доля испытуемых, выполнивших правильно оба задания теста, т.е доля тех, кто получил 1 по обоим заданиям; р j доля испытуемых, правильно выполнивших j-е задание; q j = 1; р l доля испытуемых, правильно выполнивших l-е задание теста, q=1-p l Для оценки связи между результатами выполнения двух заданий теста коэффициент корреляции Пирсона необходимо преобразовать, поскольку результаты выполнения заданий представляются в дихотомической шкале. Преобразованный коэффициент Пирсона, вычисляемый по дихотомическим данным, называется коэффициентом «фи». Где Рjl-доля испытуемых, выполнивших правильно оба задания теста, т.е доля тех, кто получил 1 по обоим заданиям; р j доля испытуемых, правильно выполнивших j-е задание; q j = 1; р l доля испытуемых, правильно выполнивших l-е задание теста, q=1-p l

Для тематических тестов высокая корреляция между заданиями неизбежна, так как задания отражают слабо варьирующее, исходное содержание, что вполне оправдано назначением теста Для тематических тестов высокая корреляция между заданиями неизбежна, так как задания отражают слабо варьирующее, исходное содержание, что вполне оправдано назначением теста

Анализ распределения ответов учащихся по предложенным вариантам ответа Хорошие задания с выбором ответа, оценивающие достижение отдельного требования стандарта, должны иметь один выраженный максимум, соответствующий верному ответу. Неверные ответы учащихся должны распределяться, как правило, почти одинаково между всеми предложенными дистракторами. "Хороший" неверный ответ (диагностический) может быть выбран большим числом слабых учащихся. Хорошие задания с выбором ответа, оценивающие достижение отдельного требования стандарта, должны иметь один выраженный максимум, соответствующий верному ответу. Неверные ответы учащихся должны распределяться, как правило, почти одинаково между всеми предложенными дистракторами. "Хороший" неверный ответ (диагностический) может быть выбран большим числом слабых учащихся. Если авторы оставляют задание, в котором один из ответов выбирают менее 5% испытуемых, то в этом случае задание, например, с 4 ответами, превращается в задание с 3 ответами, т.е. теряет один из возможных ответов и превращается в задание с меньшим числом ответов по сравнению с другими заданиями теста. Если авторы оставляют задание, в котором один из ответов выбирают менее 5% испытуемых, то в этом случае задание, например, с 4 ответами, превращается в задание с 3 ответами, т.е. теряет один из возможных ответов и превращается в задание с меньшим числом ответов по сравнению с другими заданиями теста. Если ответы испытуемых распределены почти равномерно между всеми предложенными дистракторами и правильный ответ не выделяется, то возможно, что испытуемые отвечали наугад. Если ответы испытуемых распределены почти равномерно между всеми предложенными дистракторами и правильный ответ не выделяется, то возможно, что испытуемые отвечали наугад.

Надежность теста Надежность - это степень повторяемости или степень постоянства эмпирических измерений, т.е. результатов тестирования. Надежность теста, отражает точность и устойчивость результатов тестирования к воздействию посторонних случайных факторов. Тест называется надежным, если он дает одни и те же (или очень близкие) показатели для каждого испытуемого при повторном тестировании. Согласно классической теории тестов, развитой в основном на базе нормативно-ориентированного подхода к тестированию, наблюдаемый тестовый балл X состоит из двух компонентов: истинного и ошибочного, что можно выразить в формуле: X=T+E, где X - это индивидуальный балл испытуемого; Т - истинный балл испытуемого по данному тесту; Е - ошибочная компонента индивидуального балла. Если К-(надежность) близко к нулю, то интерпретация результатов тестирования ненадёжна.

Оценка надежности теста Надежность теста r H тем выше, чем более согласованы результаты одного и того же человека при повторной проверке знаний посредством того же теста или эквивалентной его формы (параллельного теста). Надежность теста r H тем выше, чем более согласованы результаты одного и того же человека при повторной проверке знаний посредством того же теста или эквивалентной его формы (параллельного теста). Номер испытуе мого Номер испытуе мого Тест А Тест В Тест С 1-е тестиров ание 2-е тестиров ание 1-е тестиров ание 2-е тестиров ание 1-е тестиров ание 2-е тестиров ание

Надежность можно оценить: Методом повторного тестирования Методом повторного тестирования Методом параллельных форм Методом параллельных форм Методом расщепления теста Методом расщепления теста

Для подсчета коэффициента надежности используется формула Для подсчета коэффициента надежности используется формула

1.Ретестовая надежность 2.Надежность расщепленных частей теста Коэффициент надежностиОценка надежности 0,9 - 0,99Отличная 0,8 - 0,89Хорошая 0,7 - 0,79Удовлетворительная менее 0,69Неудовлетворительная Надежность теста

ИСТОЧНИКИ НЕУДОВЛЕТВОРИТЕЛЬНОЙ НАДЕЖНОСТИ ТЕСТА Субъективизм при оценке результатов выполнения заданий теста. Субъективизм при оценке результатов выполнения заданий теста. Угадывание Угадывание Отсутствие логической корректности формулировок заданий теста. Отсутствие логической корректности формулировок заданий теста. Неоправданный выбор весовых коэффициентов Неоправданный выбор весовых коэффициентов Длина теста Длина теста Отсутствие стандартной инструкции к тесту Отсутствие стандартной инструкции к тесту Другие источники снижения надежности. Другие источники снижения надежности.

Валидность Валидность теста-характеристика инструментария, критерий его качества, который показывает, насколько хорошо тест делает то, для чего он был создан. Определить коэффициент валидности теста – значит определить, как выполнение теста соотносится с другими независимо сделанными оценками знаний испытуемых. Для определения валидности требуется независимый внешний критерий, то есть оценка эксперта (преподавателя). За коэффициент валидности принимают коэффициент корреляции результатов тестовых измерений и критерия.

Точечно-бисериальная корреляция Точечно-бисериальная корреляция позволяет оценить валидность задания и ответить на вопрос, как связано выполнение данного задания с выполнением всей работы в целом. Точечно-бисериальная корреляция позволяет оценить валидность задания и ответить на вопрос, как связано выполнение данного задания с выполнением всей работы в целом. Значение точечно- бисериального коэффициента можно определить с помощью формулы, где X средний балл выполнения теста для тех, кто правильно выполнил задание, X 0 _ - cредний балл выполнения теста теми, кто неправильно выполнил задание. Значение точечно- бисериального коэффициента можно определить с помощью формулы, где X средний балл выполнения теста для тех, кто правильно выполнил задание, X 0 _ - cредний балл выполнения теста теми, кто неправильно выполнил задание.

Числовые значения точечно-бисериального коэффициента могут меняться от 1 до -1. Положительная корреляция для верного ответа показывает, что испытуемые, хорошо справившиеся с работой, хорошо выполняют данное задание, т.е. выбирают или дают правильный ответ. Отрицательная или нулевая корреляция для верного ответа отражают случайный характер ответов учащихся или наличие каких-либо проблем в усвоении проверяемого материала. Числовые значения точечно-бисериального коэффициента могут меняться от 1 до -1. Положительная корреляция для верного ответа показывает, что испытуемые, хорошо справившиеся с работой, хорошо выполняют данное задание, т.е. выбирают или дают правильный ответ. Отрицательная или нулевая корреляция для верного ответа отражают случайный характер ответов учащихся или наличие каких-либо проблем в усвоении проверяемого материала. Можно установить следующий критерий отбора заданий по данному показателю: отбираются задания со значением точечно-бисериального коэффициента для правильного ответа, превышающим критическое значение 0,20. Хорошим значением точечно-бисериального коэффициента считается интервал 0,3 - 0,5. Интервал 0,2 - 0,3 считается критическим. Можно установить следующий критерий отбора заданий по данному показателю: отбираются задания со значением точечно-бисериального коэффициента для правильного ответа, превышающим критическое значение 0,20. Хорошим значением точечно-бисериального коэффициента считается интервал 0,3 - 0,5. Интервал 0,2 - 0,3 считается критическим.

ШКАЛИРОВАНИЕ РЕЗУЛЬТАТОВ Операция упорядочения исходных эмпирических данных путем перевода их в шкальные носит название шкалирования. Операция упорядочения исходных эмпирических данных путем перевода их в шкальные носит название шкалирования. Процесс шкалирования состоит в конструировании шкалы по определенным правилам и включает два этапа. Процесс шкалирования состоит в конструировании шкалы по определенным правилам и включает два этапа. Первый сбор эмпирических данных. Первый сбор эмпирических данных. Второй этап обработка и анализ, по результатам которого строится числовая система, представляющая собой шкалу. Второй этап обработка и анализ, по результатам которого строится числовая система, представляющая собой шкалу.

ШКАЛИРОВАНИЕ РЕЗУЛЬТАТОВ Процесс шкалирования – это переход от целых баллов к производным показателям. Сводится к двум задачам: Процесс шкалирования – это переход от целых баллов к производным показателям. Сводится к двум задачам: 1) Определение достаточного уровня в некоторой шкале. 1) Определение достаточного уровня в некоторой шкале. 2) Установление некоего положения в испытуемой группе. 2) Установление некоего положения в испытуемой группе.

Z-ШКАЛА Наиболее простой метод выявления места результата i-го ученика (Xi) в сравнении с результатами других основан на подсчете отклонения балла Xi от среднего значения баллов X по группе тестируемых учащихся. Отклонение находят путем вычисления разности X Хi Если разность X Хi> 0, то результат i-го ученика выше среднего по группе. Отрицательное значение разности указывает на результат ниже среднего значения X. Наиболее простой метод выявления места результата i-го ученика (Xi) в сравнении с результатами других основан на подсчете отклонения балла Xi от среднего значения баллов X по группе тестируемых учащихся. Отклонение находят путем вычисления разности X Хi Если разность X Хi> 0, то результат i-го ученика выше среднего по группе. Отрицательное значение разности указывает на результат ниже среднего значения X. шкалированный результат i-го ученика находят по формуле шкалированный результат i-го ученика находят по формуле

Для Z-шкалы результат i-го ученика находят по следующей формуле: Здесь X i – первичный балл i-го испытуемого

Соотношение между баллами, оценочными эквивалентами и процентами испытуемых в 11-баллльной шкале баллы 5- баллльной шкалы баллы 11- баллльной шкалы Оценочный эквивалент Z-оценка Процент испыту- емых 21 Низшая оценка Z

ШКАЛА ОЦЕНКИ Превосходно Отлично Почти отлично Более чем хорошо Хорошо Недостаточно хорошо Более чем удовлетворительно Удовлетворительно Малоудовлетворительно Более чем неудовлетворительно Неудовлетворительно Нет знаний