Международная Сеть «Оценка Программ» [IPEN] September 28, 2006 Оценка в реальном мире Планирование оценок в условиях финансовых и временных ограничений,

Презентация:



Advertisements
Похожие презентации
Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______ Масштаб 1 : 5000.
Advertisements

Приложение 1 к решению Совета депутатов города Новосибирска от Масштаб 1 : 5000.
В 2014 году «Колокольчику» исполняется 50 лет!!! 208 чёрно-белых фотографий из детсадовского архива Как молоды мы были …
Результаты проведения региональных диагностических контрольных работ по русскому языку, математике и физике для учащихся 9 и 11 классов в общеобразовательных.
Г. Москва, тел.: +7 (495) , Internet: Методы бизнес-анализа в системе Бизнес-инженер.
Урок 2. Информационные процессы в обществе и природе.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Институт повышения квалификации государственных служащих Республики Таджикистан ЦЕНТР ОБСЕ В ДУШАНБЕ.
ТУЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ МЕДИЦИНСКИЙ ИНСТИТУТ Хромушин В.А., д.б.н., к.т.н., академик МАИ и АМТН 2010 г. ГРАФИЧЕСКОЕ ОТОБРАЖЕНИЕ РЕЗУЛЬТИРУЮЩИХ.
Управление проектным циклом Методика разработки, выполнения и оценивания проектов (версия Европейского союза)
Постоянно действующий семинар учителей школы 599 Приморского района координатор проекта заместитель директора по УВР Антонян Н.М. Санкт-Петербург 2010.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Итоги Интернет – тестирования учащихся 9 и 11 классов школ города Казани (1 – 3 марта 2011 г.) Саркисова И. И., методист ГМЦ.
ОЦЕНКА ПРОГРАММ. Что такое оценка программ? «Оценка есть определение достоинства или ценности» Michael Scriven, The Logic of Evaluation, Inverness «Цель.
Реализация проекта Вмешательства, ваша система управления обработанной информацией, принятие решений и последствия.
Качественные методы исследования: значение, обработка и анализ данных.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от
Консультации с заинтересованными сторонами Киев 13 мая 2011 г.
Неофициальный перевод Принудительное переселение 0P 4.12: Инструменты планирования.
Анализ проекта [Проект] [Докладчик]. Исполнение и цели Цель: укажите исходные цели или цели проекта –Перечислите критерии оценки успешного выполнения.
Транксрипт:

Международная Сеть «Оценка Программ» [IPEN] September 28, 2006 Оценка в реальном мире Планирование оценок в условиях финансовых и временных ограничений, а также при ограниченном доступе к информации Сессия 1 Введение

Программа семинара 1. Введение 2. Стратегии и планы оценки влияния 3. Обзор «оценки в реальном мире» 4. Финансовые и временные ограничения 5. Ограниченность данных 6. Анализ реальных ситуаций 7. Факторы, влияющие на валидность 8. Групповое упражнение 9. Способы улучшения дизайна оценок 10. Вопросы и обсуждение

Международная Сеть «Оценка Программ» [IPEN] September 28, 2006 Оценка в реальном мире Планирование оценок в условиях финансовых и временных ограничений, а также при ограниченном доступе к информации Сессия 2 Стратегия и дизайн оценки влияния

4 Содержание сессии 1. Атрибуция и сопоставление фактов 2. Стратегии оценки 3. Базовые варианты дизайна оценки

5 1. Атрибуция и противоречащие факты Как мы сможем узнать, что наблюдаемые нами изменения на уровне участников проекта или сообществ доход, здоровье, установки, посещение школы и т.д. связаны с выполнением проекта кредит, водоснабжение, транспортные ваучеры, постройка школы и т.д. либо с посторонними факторами? изменения в экономике, демографии, другие программы развития

6 Сопоставление фактов Каково было бы состояние населения проекта в период оценки, если бы проект не был реализован?

7 Где взять факты для сопоставления? После того, как семьи прожили в новом жилищном проекте 3 года, исследование показало увеличение среднего уровня дохода на домохозяйство на 50% Говорит ли это о том, что улучшение жилищных условий является эффективным способом увеличения дохода?

Сравнение проекта с двумя другими группами ДоходДоход Проект. Увел. на 50% Группа 1? 50% increase Группа 2? No increase

9 Стратегия = способ выявления фактов для сопоставления 2. Стратегии оценки

10 5 основных стратегий оценки Рандомизированный дизайн I.Настоящий экспериментальный дизайн. II.Рандомизированный полевой дизайн. Квази-экспериментальный дизайн (КЭД) III.Сильный КЭД IV.Более слабый КЭД Неэкспериментальный дизайн V.Логически слабое сопоставление

11 Почему важен выбор стратегии оценки?

12 Почему важен выбор стратегии оценки? Риск продолжения программ, которые не имеют реального влияния Риск прекращения программ, которые имеют реальное влияние Правильный анализ того, как программы приводят к эффектам очень важен для улучшение дизайна, эффективности и экономичности Обеспечение правильных рекомендаций относительно тиражирования опыта программы

I. Настоящий экспериментальный дизайн [редко используется на практике] T 1 Пре-тест T 2 Воздействие [проект] T 3 Пост- тест Проектная группа P1P1 XP2P2 Контрольная группа C1C1 C2C2 Проектная группа и контрольная группа сформированы на основе случайной выборки Выгода [влияние] = P 2 – P 1 C 2 – C 1 Условия для обеих групп остаются неизменными в процессе воздействия

II. Типичный слабее рандомизированный дизайн оценки, чаще применяемый на практике T 1 Пре-тест T 2 Воздействи е [проект] T 3 Пост- тест Проектная группа P1P1 XP2P2 Контрольная группа C1C1 C2C2 Условия для обеих групп не контролируются в ходе проекта Проектная группа и контрольная группа сформированы на основе случайной выборки Выгода [влияние] = P 2 – P 1 C 2 – C 1

15 Пример: рандомизированный полевой дизайн Оценка новой техники преподавания (использование плакатов и фломастеров) 178 школ в Кении перечислены в алфавитном порядке вместе с альтернативными школами и контрольными группами Обе группы тестируются на предмет развития образовательных навыков в начале и в конце года Только проектная группа получает плакаты и фломастеры Рандомизированный дизайн позволяет выяснить, что между двумя группами нет различий с точки зрения образовательных результатов Источник: Glewwe et al 2004

16 Источник информации по рандомизированному дизайну

Контрольная группа и группа для сравнения Контрольная группа = рандомизированное включение субъектов в проектную группу и группу, не подвергающуюся воздействию Группа для сравнения = специальная процедура формирования выборки для проекта и группы, не подвергающейся воздействию

18 3.Дизайн оценки в реальном мире (RWE) [См. раздаточный материал 2-2 и RWE, Глава 10] 7 базовых вариантов дизайна RWE: 2 методологически сильных 3 менее сильных, но вполне удовлетворительных 2 методологически слабых, но очень широко используемых!

Исходное состояние Оценка в конце проекта Участники проекта Группа для сравнения Отсроченная оценка Введение в дизайн оценки Шкала главного индикатора влияния

Два наиболее сильных враианта квази- экспериментального дизайна

Вариант 1: Наиболее методологически строгий квазиэкспериментальный дизайн [но самый дорогой] T 1 T 2 T 3 T 4 Проектная P 1 P 2n P 3 P 4 группа Неэквивал. C 1 C 2n C 3 C 4 контр.группа До проекта Реализация проекта Конец проекта Через некоторое время после окончания

Вариант 2: Самый строгий квазиэкспериментальный дизайн общего назначения T 1 T 2 T 3 Проектная P 1 X P 2 группа Неэквивалентная C 1 C 2 контрольная группа Пример: Оценка влияния низкозатратных жилищных программ в Сальвадоре Источник: RWE Box 10.6 p. 214 До проекта Реализация проекта Конец проекта

Три более дешевых, но менее строгих варианта квазиэкспериментального дизайна

Вариант 3: Усеченный пре-тест – пост-тест T 1 T 2 T 3 Проектная P 1n P 2 группа Неэквивалентная C 1n C 2 Контрольная группа Пример: Оценка влияния вспомогательных транспортных веток в Эритрее (без контрольной группы) Источник: RWE Box 10.8 p. 216 Примечание: этот вариант дизайна может включать или не включать контрольную группу. Некоторые варианты также предполагают наблюдения в процессе реализации проекта. До проекта Реализация проекта Конец проекта

Вариант 4: Без пре-тестовой группы для сравнения T 1 T 2 T 3 Проектная P 1 X P 2 группа Неэквивалентная C 1 контрольная группа Пример: Влияние переселения в Ирригационном проекте в Махараста, Индия Источник: RWE Box p. 218 До проекта Реализация проекта Конец проекта

Вариант 5: Отсутствие исходных данных T 1 T 2 T 3 Проектная X P 1 группа Неэквивалентная C 1 Контрольная группа Пример: оценка влияния микрокредитов на женщин и семьи в Бангладеш Источник: RWE Box p. 220 До проекта Реализация проекта Конец проекта

Два слабых, но широко используемых неэкспериментальных варианта дизайна

Вариант 6: Нет группы для сравнения T 1 T 2 T 3 Проектная P 1 X P 2 группа Неэквивалентная контрольная группа Пример: Влияние Хао-Лаемского проекта создания гидроэлектростанции в Таиланде Источник: RWE Box p. 222 До проекта Реализация проекта Конец проекта

Вариант 7: Нет исходных данных или группы для сравнения T 1 T 2 T 3 Проектная группа X P 1 Group Неэквивалентная Контрольная группа Пример: оценка влияния на образование Социального Фонда Эритреи Источник: RWE Box pp До проекта Реализация проекта Конец проекта

Почему вариант 7 так широко используется. Каковы следствия для менеджеров и политиков

31 4. Вариации базовых дизайнов оценки [см. раздат. м-лы 2-3] 1. Включение, по крайней мере, одного наблюдения в ходе проекта 2. Лонгитюдный анализ: несколько наблюдений в ходе реализации проекта 3. Оценка устойчивости: использование наблюдения после того, как проект работает несколько лет

32 Вариации базовых дизайнов … продолжение 4. Процессный анализ: раскрывание «черного ящика» для того, чтобы наблюдать процесс реализации проекта 5. Контекстный анализ: оценка влияния местных факторов на реализацию и результаты/влияние проекта

33 Молниеносная «обратная связь» Возможно ли технически или политически для вас использование рандомизированного подхода к дизайну оценки Стали бы вы рекомендовать его использование? В каких случаях?

Международная Сеть «Оценка Программ» [IPEN] September 28, 2006 Оценка в реальном мире Планирование оценок в условиях финансовых и временных ограничений, а также при ограниченном доступе к информации Сессия 3 Обзор подхода «Оценка-в-реальном-мире»

35 Обзор сессии 1. Определение понятия «оценка-в-реальном- мире» (RWE) 2. Сценарии RWE: две наиболее типичных ситуации, когда такая оценка используется 3. Семь стадий RWE

36 1. «Оценка-в-реальном-мире» [RWE] Интегрированный подход направленный на соблюдение приемлемых методологических стандартов при проведении оценок в условиях финансовых, временных, информационных и политических ограничений.

37 2. Сценарии RWE [См. раздатки 3-1] Сценарий 1. Оценка проводится в начале проекта, но по финансовым, временным, техничеким или политическим соображениям: Сложно выделить необходимое время для консультаций и планирования Трудно собрать данные по группе для сравнения Клиент не разрешает собрать исходные данные об участниках проекта

38 Сценарий 2: Оценка не проводилась вообще, хотя проект уже реализуется в течение некоторого времени : Не собраны исходные данные ни по группедля сравнения, ни – иногда - по проектной группе Вторичных данных вообще нет или их качество оставляет желать лучшего Отчет нужно сделать как можно быстрее Ограниченный бюджет Политические ограничения методологии оценки и давление, чтобы получить «позитивные» результаты

39 Специалисты по оценке, обычно, сталкиваются с одним или несколькими ограничениями RWE [раздатка 3-1] Недостаточный бюджет Ограниченное время Большой объем работ и сжатые сроки Сжатые сроки у самих исполнителей проекта и др. заинтересованных сторон Очень плотный график Необходимость сократить время проведения полевых исследований Недостаток данных Отсутствие исходных данных Административные данные по проекту неполные и низкого качества Трудно найти данные по качественным результатам и индикаторам

40 Политические и институциональные ограничения Давление со стороны финансирующих агентств, заемщиков и заинтересованных сторон, направленное на Исключительное использование определенных методов Задавние определенных вопросов Интервьюирование определенных групп Презентацию только позитивных результатов («не раскачивать лодку!») Много клиентов с разными интересами Недостаточная местная экспертиза в области оценки Отсутствие культуры оценки Заемщики не относятся к результатам оценки как своим

41 Адекватный бюджет, но недостаточно данных Пост-тест, неэквивалентная контрольная группа, выборочные исследования с многовариантынм анализом Ограниченный бюджет, но полно времени Нет ресурсов, чтобы привлечь международную экспертизу или провести широкомасштабные выборочные исследования – но полно времени для того, чтобы нанять местных исследователей (внутри или вовне агентства-заемщика) для использования качественных методов и небольших лонгитюдных исследований Подход может видоизменяться в зависимости от существующих ограничений

42 Адекватный бюджет, но ограниченное время Оценщик обязан уложиться в жесткие сроки, что ограничивает время в «поле» Политические ограничения Команда сталкивается с политическими или идеологическими ограничениями относительно примелемости тех или иных методов

7 шагов «Оценки-в-реальном-мире» [раздатка 3-2] Шаг 2 Учет ограничений бюджета Шаг 3 Учет временных ограничений Шаг 4 Учет ограничений данных Шаг 7 Помощь клиентам в использовании оценки Шаг 1. Планирование и определение рамок оценки Шаг 5 Учет политических влияний Шаг 6 Усиление дизайна оценки и повышение валидности выводов

44 Международная Сеть «Оценка Программ» [IPEN] September 28, 2006 Оценка в реальном мире Планирование оценок в условиях финансовых и временных ограничений, а также при ограниченном доступе к информации Сессия 4 Учет ограничений бюджета и времени

45 План сессии A.Стратегии учета бюджетных ограничений 1.Упрощение дизайна оценки 2.Рационализация потребностей в информации 3.Поиск надежных вторичных данных 4.Пересмотр размера выборки 5.Снижение стоимости сбора и анализа данных B. Дополнительные стратегии для учета временных ограничений

A. Стратегии учета ограничений бюджета

Step 2 Addressing Budget Constraints Шаг 1 Планирование и определение рамок оценки Шаг 2 Учет ограничений бюджета Шаг 3 Учет временных ограничений Шаг 4 Учет ограничений данных Шаг 2 Учет ограничений бюджета A.Упрощение дизайна оценки B.Рационализация потребностей в информации C.Поиск надежных вторичных данных D.Пересмотр размера выборки E.Снижение стоимости сбора и анализа данных Шаг 6 Оценка сильных и слабых сторон дизайна Step 7 Усиление дизайна оценки Шаг 5 Учет политических влияний

48 Возможность 1: Упрощение дизайна оценки Многие стратегии снижения стоимости оценки предполагают исключение: Группы для сравнения исходных данных Группы для сравнения с проектной Пост-тестовой группы для сравнения Хотя эти действия сберегают деньги, они ослабляют дизайн оценки (основу для сопоставления фактов) и увеличивают риск снижения валидности.

49 Смотрите: Раздатку 2-2, где приводится обзор 7 распространенных вариантов дизайна оценки

T 1 Предпроектн. Начало проекта T 2 Реализация T 3 Конец проекта T 4 Послепроектн. варианта Два самых сильных варианта 1 P1C1P1C1 X P2C2P2C2 P3C3P3C3 P4C4P4C4 2 P1C1P1C1 X P2C2P2C2 Три менее сильных, но часто адекватных 3X P1C1P1C1 P2C2P2C2 4 P1P1 X P2C1P2C1 5X P1C1P1C1 Два слабых (не экспериментальных), но широко используемых 6 P1P1 X P2P2 7X P1P1 Семь вариантов дизайна

51 Экономия средств при исопльзовании различных моделей [в сравнении с вариантом 2] ВариантПримерная экономия 3Сокращенный лонгитюдный дизайн5-10% 4Без пре-тестовой контрольной группы10-20% 5Не собирается исходная информация30-40% 6Без контрольной группы40-50% 7Только пост-тест для проектной группы 60-80%

52 Если ресурсы доступны, то все варианты могут быть усилены за счет Определения модели (теории) программы Процессного и контекстуального анализа Усиление дизайна выборки Учет возможной предвзятости Использование смешанных методов и триангуляции Выделение времени денег на продолжение См. сессию 9

53 Возможность 2: Рационализация потребности в информации Определить потребности клиента в информации. В каком минимальном количестве информации клиент нуждается? Что является для клиента главным? Проанализировать все инструменты сбора данных и исключить вопросы, не относящиеся к приоритетным потребностям клиента.

54 Возможность 3: Найти надежные источники вторичной информации Исследования на этапе планирования, административные документы (мониторинг) Исследования, проведенные правительством, университетами, международными агентствами Официальная статистика Данные, имеющиеся в школах, клиниках, на рынках и в других сервисных агентств Отчеты в СМИ, в частности, в газетах

55 Покрытия целевой группы Времени Адекватности собранных данных Надежности и полноты данных Потенциальных предубеждений См. сессию 5 Оценить адекватность и надежность источников с учетом:

56 Проверить размер выборки с точки зрения получения статистически щначимых данных с учетом: Ожидаемого масштаба влияния Чем меньше масштаб влияния, тем больше выборка Требуемой мощности теста [вероятность определения влияния проекта, если он существует] Чем выше требуемая мощность, тем больше размер выборки Размер популяции Чем меньше популяция, тем меньше выборка Вариант 4: Уменьшение размера выборки

57 Размер выборки … продолжение Необходимый уровень статистической точности Чем выше требования к точности, тем больше выборка Требуемый уровень дезагрегирования Каждое дополнительное сравнение (по регионам, типам проектов, полу главы семьи и т.д.) увеличивает требуемый размер выборки См. RWE Chapter 14 pp

58 Масштабы эффекта для большинства проектов развития невелики Причины бедности, слабой посещаемости в школах, недоедания лежат в разных сферах Следовательно, большая часть интервенций, пусть и хорошо спланированных, оказывают лишь незначительное влияние Таким образом, обычно, требуется большая выборка для определения эффекта (влияния)

Требуемый размер выборки для разных масштабов влияния и мощности Мощность Масштаб влияния [малый] [средний] [большой] Примечания: 1. Размеры выборки даны для проектной группы. Аналогичный размер требуется для контрольной группы. 2. Предполагается 0.05 уровень значимости.

60 Способы уменьшения размера выборки [раздатка 4 - 1] Принять меньший уровень значимости (0.1 вместо 0.05) Принять меньший уровень мощности (0.8 вместо 0.9) Увеличить масштаб эффекта Улучшить качество выполнения проекта Сфокусироваться на группах, где масштаб влияния самый большой (например, только студентки, только самые образованные родители) Повысить эффективность выборки Стратифицированная выборка Повышение процента ответивших Уменьшить дезагрегирование

61 Осторожно !!! Всегда хочется уменьшить размер выборки для экономии средств … Но, если ожидаемый масштаб влияния невелик, то есть вероятность получения ложных отрицательных данных … Выборка может оказаться слишком маленькой для определения небольшого, но реального эффекта

62 Вариант 5: Уменьшение стомисоти сбора и анализа данных [Раздатка 4 -2] Использовать анкеты с самостоятельным заполнением Уменьшить размер и сложность инструментов Использовать наблюдение Учесть результаты фокус-групп и форумов в сообществах Провести интервью с ключевыми лицами Использовать методы оценки с участием Множественность методов и триангуляция

B. Дополнительные стратегии для учета временных ограничений

64 Step 2 Addressing Budget Constraints Шаг 1 Планирование и определение рамок оценки Шаг 2 Учет ограничений бюджета Шаг 3 Учет временных ограничений Шаг 4 Учет ограничений данных Шаг 6 Оценка сильных и слабых сторон дизайна Step 7 Усиление дизайна оценки Шаг 5 Учет политических влияний Шаг 3 Учет временных ограничений Такие же стратегии, как для бюджета + F.Снизить напряженность графика для иностранных консультантов G.Нанять больше консультантов/исследователей H.Включить индикаторы результатов в систему мониторинга проекта I.Современные технологии ввода и анализа данных

65 1. Два вида временных ограничений Существуют два вида временных ограничений продолжительность оценки (период времени от начала до окончания оценки) трудоемкость (сколько недель требуется для того, чтобы собрать данные).

66 2. Стратегии экономии времени [Раздатка 4-2] Большинство стратегий экономии средств приводят к экономии времени A. Упрощение дизайна B. Рационализация потребностей в информации C. Поиск надежных вторичных данных D. Пересмотр размера выборки E. Снижение стоимости сбора и анализа данных

67 Дополнительные стратегии экономии времени [Раздатка 4-3] F. Уменьшить плотность графика работы зарубежных консультантов Провести подготовительные исследования Видеоконференции G. Нанять больше консультантов/исследователей H. Включить индикаторы результатов в систему мониторинга проекта I. Использовать современные технологии кодирования, ввода и анализа данных

68 4. Использование смешанных методов для экономии времени Выявить людей, которые лучше других информированы по важным вопросам Использовать методы оценки с участием, в частности, включить лидеров сообществ: Фокус-группы Матрицы критериев Диаграммы Венна Описание истории и т.д.

69 Структурированное наблюдение Существующая документация Попросить членов сообщества собрать информацию Использование фото и видео Триангуляция – несколько наблюдений за одним источником

70 Значение триангуляции для повышения надежности Триангуляция методов Триангуляция данных, полученных с помощью нескольких количественных и качественных методов может иногда получить необходимые сведения на меньших выборках и сэкономить силы и время

71 Другие формы триангуляции Источники данных Методы сбора данных Оценщики или люди, собирающие данные Повторяющиеся наблюдения через некоторое время Различные аналитические подходы Различные уровни наблюдения [индивид, семья, сообщество, группа и т.д.]

72 Будьте осторожны, используя качественные методы для экономии времени, т.к. большинство методов не предназначены для ускоренного использования

73 Можете ли вы привести примеры, когда качественные методы используются неправильно, когда это делается в целях экономии времени?

Additional notes on the estimation of sample size [in English]

75 The sample size needed to test for statistically significant results determined by: Expected effect size [size of impact] The smaller the effect size the larger the sample Required power of the test The higher the required power the larger the sample Population size The smaller the population the smaller the sample See RWE Chapter 14 pp Option 4: Reducing sample size

76 Sample size … continued Required level of statistical precision Higher the required precision the larger the sample Required levels of disaggregation Each additional comparison (by region, type of project, sex of family head etc) further increases the required sample size.

77 Definition of effect size The size of the change or effect that a program produces or is expected to produce The larger the difference between project and comparison group means (relative to the standard deviation) the larger the effect size Where possible use a standardized effect size: (X 2 -X 1 )/σ so that effect size of different projects can be compared

78 Definition of effect size The size of the change or effect that a program produces or is expected to produce The larger the difference between project and comparison group means (relative to the standard deviation) the larger the effect size Where possible use a standardized effect size: (X 2 -X 1 )/σ so that effect size of different projects can be compared

79 Estimating effect size Empirical Results of earlier projects The research literature Normative National norms Secondary school enrolment rates Policy goal (% of families below poverty line) Economic/financial Cost-effectiveness criteria Change required to achieved reasonable unit cost

80 Most effect sizes for development projects are small The causes of poverty, low-school enrolment, malnutrition etc are multidimensional Consequently most interventions, however well designed, tend to only have a small to medium effect size ( )

81 Definition of power of the test The probability of detecting a statistically significant difference (between the project and comparison group) if a real difference does exist. The risk of missing the effect = false negative Increasing power raises the probability of detecting a real effect but also significantly increases sample size.

82 Required sample size for different effect sizes (difference of means) and power Power Effect size [small] [medium] [large] Notes: 1. Sample sizes are for project group. Similar size required for comparison group. 2. Assumes 0.05 significance level.

83 Ways to reduce sample size [Handout 6-1] Accept lower significance level (0.1 instead of 0.05) Accept lower Power level (0.8 instead of 0.9) Increase effect size Improve quality of project implementation Focus on groups where effect size expected to be greatest (only girl students, better educated parents) Increase sampling efficiency Stratified sample design Reduce non-response rate Less disaggregation

84 Beware!!! It is always tempting to reduce sample size to save money … But if the expected effect size is small there is a danger of a false negative … The sample is too small to detect a small but real effect

Международная Сеть «Оценка Программ» [IPEN] September 28, 2006 Оценка в реальном мире Планирование оценок в условиях финансовых и временных ограничений, а также при ограниченном доступе к информации Сессия 5 Учет ограничений данных

86 План сессии 1. Реконструкция исходных данных 2. Специальные вопросы для групп сравнения

87 Step 2 Addressing Budget Constraints Шаг 1 Планирование и определение рамок оценки Шаг 2 Учет ограничений бюджета Шаг 3 Учет временных ограничений Шаг 4 Учет ограничений данных Шаг 6 Оценка сильных и слабых сторон дизайна Шаг 7 Усиление дизайна оценки Шаг 5 Учет политических влияний Шаг 4 Учет ограничений данных A.Реконструкция исходных данных B.Особенности работы с группами сравнения. C.Сбор данных по особо сложным вопросам D.Сбор данных в труднодоступных группах

1.Реконструкция исходных данных для проектных групп и групп сравнения [раздатка 5-1]

89 Значение исходных данных Трудно оценить изменения, если не иметь данных об исходном состоянии Пост-тестовые сравнения не могут полностью принять во внимание: Предвзятость выбора: изначальные различия между участниками проекта и теми, кто в нем не участвовал Введение весовых коэффициентов пристрастий частично решает эту проблему Исторические факторы, которые влияют на результаты и которые предположительно были вызваны выполнением проекта

90 Способы реконструкции исзодных условий A. Вторичные данные. B. Документация по проекту. C. Вспомнить D. Ключевые источники информации E. PRA и другие методы оценки с участием, в частности линии времени и критические события, которые помогают восстановить хронологию важных событий в сообществе

91 1-A. Использование вторичных данных для реконструкции исходных условий Перепись Анкеты Административные данные по проекту Отчеты агентств Специальные исследования, проведенные НКО и донорами Университетские исследования СМИ (газеты, радио, TV)

92 Документы о жизни сообщества Записи в офисах, центрах сообществ Постеры (плакаты) Сведения о рождаемости/смертности Завещания и документы, касающиеся собственности

93 Оценка полезности потенциальных вторичных данных Дата Покрытие целевой группы Включенность необходимых индикаторов Полнота Точность Непредвзятость

94 1-B. Использование проектной документации Виды данных Исследования выполнимости/исследования на стадии планирования Формы заявок и регистрации Отчеты руководству Данные в управленческих информационных системах Отчеты о совещаниях Протоколы совещаний в агентствах и сообществах Отчеты о выполнении Стоимость строительства

95 Оценка надежности проектной документации Кто собирал данные и с какой целью? Их собирали для фиксирования хода поректа или для оказания влияния на лиц, принимающих решения? Данные мониторинга относятся только к деятельности по проекту или они также охватывают результаты? Данные были собраны исключительно для внутреннего использования? Для использования ограниченной группой? Для открытого доступа?

96 Насколько данные точные и полные? Есть ли очевидные «провалы»? Они возникли преднамеренно или вследствие плохой организации ведения документации. Каковы потенциальные предубеждения с точки зрения индикаторов измерения влияния проекта?

97 Работа с клиентом над повышением полезности данных для оценки Сбор дополнительной информации о заявителях или участниках Убедиться, что идентификационные данные включены и точны. Убедиться, что данные организованы так, как это нужно для оценки (по сообществам, видам услуг, семьям, а не по индивидам, уровню дохода и пр.)

98 1-C. Использование воспоминаний для восстановления исходных данных Посещаемость школ и время/стоимость проезда Болезни/использование медицинских учреждений Доходы и расходы Знания и навыки сообществ/индивидов Социальная сплоченность/конфликтность Использование воды, качество, стоимость Периоды стресса Формы путешествий

99 Области, в которых исследования, в основном, строятся на валидности воспоминаний Анкетирование по поводу доходов/расходов Демографические данные и репродуктивное поведение

100 Ограничения воспоминаний Обычно ненадежны для получения точных количественных данных Полезны для описания основных событий или воздействий новых услуг, когда до этого ничего подобного не было Предвзятость при формировании выборки Целенаправленное или непреднамеренное искажение Мало эмпирических исследований (кроме связанных с расходами) для того, чтобы уточнить сведения.

101 Источники предвзятости в воспоминаниях Кто дает информацию Неучет небольших и рутинных расходов «Телескопический» эффект в отношении основных расходов. Искажения, связанные с нежеланием следовать приемлемому поведению Намеренные Романтизация прошлого Факторы, связанные с контекстом: Временные интервалы, использованные в вопросе Ожидания респондентов относительно того, что хочет интервьюер

102 Повышение валидности воспоминаний Проверить, чтобы были проинтервьюированы все группы Провести небольшие исследования для сравнения воспоминаний с результатами анкетирования или другими данными Триангуляция Связать воспоминания с важными событиями Выборы Засухи/наводнения Строительство дорог, школ и т.д.

103 Другие примеры, где воспоминания могут быть полезны? Есть ли у вас опыт, когда воспоминания вводят в заблуждение?

104 1-D. Ключевые лица – источники информации Не только официальные лица и люди с высоким формальным статусом Ключевым может стать любой источник в зависимости от ситуации: Одинокие матери Рабочие фабрики Пользователи общественного транспорта Секс-работники Уличные дети

105 Рекомендации по анализу ключевых источников Триангуляция существенно повышает валидность и понимание Включите людей с разным опытом и взглядами Поймите, как каждый из них вписывается в общую картину

106 1-E. PRA и другие техники оценки с участием PRA позволяют собрать данные на уровне группы или сообщества, но не на индивидуальном Могут быьт направлены на поиск консенсуса или, наоборот, разногласий. Риск предвзятости: Будут участвовать только представители определенных секторов сообщества Некоторые люди могут доминировать в обсуждении

107 Техники PRA, имеющие отношение ко времени и полезные при реконструкции прошлого График Анализ тенденций Исторический разрез Сезонная диаграмма Распорядок дня Генеалогия с участием Картирование мечты Критические (значимые) события

Использование PRA методов для воспоминаний: сезонные календари Сезонный календарь бедности, составленный деревенскими жителями Ньямира, Кения JanFebMarAprilMayJunJulAugSepOctNovDec Легкие перекусы OOO OOOO ПопрошайничествоOOOOOO OOOO OO Миграция OOO OOOO БезработицаOOOOOO OO Доход OOOO OOO OOOOOO OOO OO OOO Болезни OOOO OOO OOOOOOOOOO ДождьOO OOO O OOOO O O Источник: Rietbergen-McCracken and Narayan 1997

109 1-F. Проблемы в реконструкции исходных данных Вариации в надежности воспоминаний Искажения памяти Вторичные данные непросто использовать Вторичные данные неполные или ненадежные Ключевые информаторы могут искажать прошлое

Реконструкция групп сравнения Согласование суждений в сообществах. После представления услуг проекта благополучатели на более поздних фазах могут использоваться как контрольная группа и канал получения информации Внутренний контроль, когда различные субъекты получают разные сочетания услуг и уровни обслуживания

111 Показатели склонности В «быстрых» исследованиях могут сравниваться характеристики проектной и контрольной групп с использованием: Наблюдения Ключевых информаторов Фокус групп Вторичных данных Аэрофотосъемки и данных геоинформационных систем

112 Использование показателей склонности для усиления групп сравнения Логическая регрессия по отношению к проекту и группе сравнения для выявления детерминант участия в проекте Выбрать «ближайших соседей» (обычно, около 5) из группы сравнения, которые наиболее тесно взаимодействуют с участником Влияние проекта = итоговый показатель = разница между показателем участника и средним показателем ближайших соседей

113 Проблемы в реконструкции контрольных групп Регионы реализации проекта часто выбираются целенаправленно и трудно сопоставимы Различия между проектной и контрольной группами – трудно оценить, с чем связаны – с проектом или с изначальными различиями Недостаток хороших данных для выбора контрольных групп Эконометрические методы не могут в полной мере учесть изначальные различия между группами (ненаблюдаемое)

114 Handout 5-2 Case studies illustrating ways to address data constraints [some only in English] I. Reconstructing baseline data II. Using multivariate analysis to strengthen non- equivalent control group designs III. Using multiple secondary sources and multiple methods for triangulation and to strengthen comparison groups. IV.Methods for collecting sensitive information

115 Ссылки Bamberger, Rugh and Mabry (2006). RealWorld Evaluation. Chapter 5 Kumar, S (2002). Methods for Community Participation. A complete guide for practitioners. Patton, M.Q. (2002). Qualitative research and evaluation methods. Chapters 6 and 7. Roche, C Impact assessment for development agencies. Chapter 5.

116 Международная Сеть «Оценка Программ» [IPEN] September 28, 2006 Оценка в реальном мире Планирование оценок в условиях финансовых и временных ограничений, а также при ограниченном доступе к информации Сессия 6 Случаи, иллюстрирующие способы учета ограничений бюджета, времени и данных

117 План сессии 1. Строительство вспомогательных дорог в Эритрее Снижение стоимости за счет упрощения дизайна и сокращения размера выборки 2. Сельские дороги во Вьетнаме Использование показателей склонности для сближения характеристик проектной и контрольной групп 3. Социальный фонд Никарагуа Использование вторичных данных для восстановления исходных данных 4. Обеспечение сообщества водой в Индонезии Использование триангуляции для снижения затрат и повышения надежности

1. Снижение стоимости за счет упрощения дизайна и сокращения размера выборки Оценка влияния вспомогательных дорог в Эритрее См. раздатку 6-1, Случай 1

Интервенция [Строительство вспомогательных дорог] Наблюдения в процессе строительства Пост-тест [анкетирование после того, как строительство дорог было закончено] T2T2 T3 T3 Проектные сообщества P 1 Наблюдение Подсчет трафика P 2 Небольшое анкетирование домохозяйств Воспоминания Ключевые информаторы Вторичные источники Контрольные сообщества Вторичные источники Использование варианта дизайна 3 [начало оценки в середине проекта] в оценке проекта по строительству вспомогательных дорог в Эритрее

120 Методы снижения стоимости Использование дизайна 3 (без контрольной группы) Только 90 домохозяйств (выбраны в трех деревнях) проинтервьюированы вдоль каждой дороги Восстановление исходных показателей через воспоминания Ключевые информаторы Наблюдение трафика – пешеходного и других средств передвижения, открытие новых бизнесов, качество дорог и т.д. Вторичные источники

121 Примерная экономия На 25-40% дешевле, чем более строгий дизайн [вариант 2]

2. Использование показателей склонности для сближения характеристик проектной и контрольной групп Оценка влияния на бедность проекта по строительству сельских дорог во Вьетнаме См. раздатку 6-1 Случай 2

123 Целью оценки было выяснить влияние проекта по строительству сельских дорог во Вьетнаме на бедность Административные данные, собранные проектом были использованы для выбора 100 коммун, где дороги были построены и 100 коммун, где дороги не были построены

Дизайн 2: Пре-тестовое – пост-тестовое сравнение проектной группы и неэквивалентной контрольной группы T 1 [Начало проекта] T 2 Выполнение проекта [стр-во сельских дорог] T 3 Пост-тест [Завершение дорог] Проектная группа [коммуны, где дороги были построены] P 1 Опрос 100 коммун Данные собраны для админ.целей. X Реализация – несколько месяцев анализ процесса с использование документов проекта P 2 Повторный опрос Группа сравнения [не было построено дорог] C 1 Опрос 100 коммун, где не было постр.дорог Тот же инструмент C 2 Повторный опрос.

125 Коэффициенты склонности были рассчитаны для сближения характеристик проектной и контрольной групп. Коэффициенты склонности устанавливают вероятность того, что коммуна будет выбрана для участия в проекте. Проектные коммуны были максимально похожи на контрольные коммуны. Средние значения переменных на выходе были подсчитаны для подобранных контрольных коммун. Разница между этими показателями и проектными показателями и была показателем влияния

3. Использование вторичных данных для реконструкции начальных условий Оценка Фонда социальных инвестиций Никарагуа См. раздатку 6-1 Случай 6

127 Цель оценки Определить, как повлияли школы, водоснабжение, туалеты, медпункты на благосостояние домохозяйств с низким уровнем доходов Оценить доступность услуг проекта для всех секторов целевой популяции

128 Методология оценки Измерение жизненных стандартов, проведенное в 1998 году, было использовано для того, чтобы создать карту бедности для выбора целевых сообществ Эти данные были использованы в сочетании с административными данными по критериям отбора, чтобы сформировать показатели склонности, устанавливающие вероятность проживания в области, выбранной проектом

Дизайн 5 (пост-тест анализ проектной и контрольной групп) T1T1 T 2 Вода, туалеты, школы, медпункты T3T3 Проектная группа Отдельная выборка по каждому компоненту проекта Исследование 1998 г. использовано для реконструкции исходных условий Воспоминания использованы для проверки данных XP1P1 Контрольная группа Выбрана с использованием Показателей склонности и вторичных данных Вторичные данные и показатели роста использованы для восст. исходных условий C1C1

130 Эти показатели были исопльзованы, чтобы сопоставить каждого учатсника проекта с пятью «ближайшими соседями» (группа сравнения с максимально близкими показателями склонности). Ближайшие соседи были использованы для реконструирования исходных условий, и влияние проекта определялось как разница между изменениями в показателях каждого участника и средним значением изменений для ближайших соседей.

131 Воспоминания были также использованы для повышения надежности данных. Отдельный анализ был проведен по каждому компоненту проекта

132 Уроки Множественные источники данных могут быть использованы для усиления статистического сравнения через установление показателей склонности Воспоминания могут быть использованы как проверка последовательности при восстановлении исходных условий Административные данные могут быть использованы для улучшения отбора контрольной группы Источник: Pradhan and Rawlings 2000

4. Снижение стоимости сбора данных путем использования групповых интервью, ключевых информаторов и наблюдения Оценка эффективности и влияния систем водоснабжения, управляемых сообществами в Индонезии См. раздатку 6-1 Случай 7

Интервенция [строительство сельских систем водоснабжения и канализации] T 3 Пост-тестовые наблюдения после того, как системы водоснабжения и канализации были налажены Проектные деревни X P 1 Групповые обсуждения Наблюдение за качеством воды Вторичные данные Ключевые информаторы Деревни, выбранные для сравнения [аналог. Проекты других доноров] C 1 Те же индикаторы Применение дизайна 5 в сельском проекте по водоснабжению

135 Методы снижения стоимости Использование дизайна 5 с пост-проектным сравнением деревень, где были созданы новые системы с теми деревнями, где такие системы были созданы другими донорами, но без участия сообществ Сбор данных через групповые консультации (еиница анализа – сообщество) Выборка из 60 с лишним деревень, достаточно большая, чтобы сделать статистические сравнения Реконструкция исходных данных через воспоминания, ключевых информаторов и вторичные данные

136 Примерная экономия средств Стоимость оценки $ 150,000, из которых $ 45,000 – стоимость иностранных консультантов. Экономия составила, как минимум, 50% по сравнению с более строгим дизайном [вариант 2]

137 Международная Сеть «Оценка Программ» [IPEN] September 28, 2006 Оценка в реальном мире Планирование оценок в условиях финансовых и временных ограничений, а также при ограниченном доступе к информации Сессия 7 Шаг 6: Усиление дизайна оценки и валидности выводов

138 План сессии 1. Что такое валидность и почему она важна? 2. Общие правила оценки валидности 3. Дополнительные угрозы валидности в количественных оценках 4. Список факторов, которые угрожают валидности 5. Стратегии учета этих угроз 6. Дополнительные материалы нанаглийском языке

139 Шаг 1 Планирование и определение рамок оценки Шаг 2 Учет ограничений бюджета Шаг 3 Учет временных ограничений Шаг 4 Учет ограничений данных Шаг 6 Оценка сильных и слабых сторон дизайна A. Выявление угроз валидности квазиэкспериментального дизайна B. Оценка адекватности качественных дизайнов C. Интегрированный список рекомендаций для смешанных методов D. Учет угроз валидности в количественных оценках E. Учет угроз валидности в количественных оценках F. Учет угроз валидности при использовании смешанных методов Шаг 6 Оценка сильных и слабых сторон дизайна Step 7 Усиление дизайна оценки Шаг 5 Учет политических влияний

1. Что такое валидность и почему она важна?

141 Определение валидности Степень, в которой результаты оценки и рекомендации поддерживаются: логикой проекта статистическими техничками, включая формирование выборки тем, проект и оценка были реализованы сходством между популяцией проекта и более широкой популяцией, на которую переносятся результаты оценки

142 Почему валидность имеет значение? Оценка предоставляет информацию для будущих решений и действий. Если результаты невалидны, то: Программы, которые не работают, могут быть расширены Хорошие программы могут быть остановлены Приоритетные целевые группы могут не получить доступа услугам или выгоды

143 Почему валидность имеет значение? … продолжение Валидность результатов большинства оценок не анализируется: в силу слабости дизайна многих оценок есть риск прийти к неправильным выводам которые приведут к неправильным или менее эффективным действиям и растранжириванию скудных ресурсов, вкладываемых в развитие

Общие принципы оценки валидности дизайна оценки [см. раздатку 7-1] A. Возможность подтверждения B. Надежность C. Достоверность D. Возможность переноса E. Использование

145 A. Возможность подтверждения Основаны ли выводы на доступной для их проверки информации и свободна ли оценка от предубеждений оценщика? Примеры: A-1: Неадекватное документирование методов и процедур A-2: Представлены ли данные для обоснования выводов и согласуются ли выводы с полученными данными? [ Сравните аннотацию с содержанием отчета]

146 B. Надежность Последователен ли порцесс исследования стабилен ли он с учетом включения разных исследователей и использования разным методов? Примеры: B-2: Данные собраны только от тех людей, которые посетили фокус-группы или встречи местного сообщества B-4: Проводились ли кодирование и проверки качества? Все ли в порядке?

147 C. Достоверность Кажутся ли данные достоверными для участников оценки и читателей отчета? Удалось ли нарисовать аутентичную картину происходящего? Примеры: C-1: Достаточно ли информации для составления достоверного описания объектов и ситуаций, которые исследовались? C-3: Применялась ли систематическая триангуляция источников данных и методов исследований? Не противоречивы ли данные? Что происходило, когда возникали противоречия?

148 D. Возможность переноса Соответствуют ли выводы другим контекстам и в какой мере они могут быть обобщены? Примеры: D-1: Достаточно ли подробно описаны характеристики выборки, чтобы можно было сравнить ее с другими? D-4: Представляет ли отчет достаточно деталей для того, чтобы читатель смог сделать вывод о возможности переноса?

149 E. Использование Были ли результаты полезными для клиентов, исследователей и сообществ, которые исследовались? Примеры: E-1: Были ли результаты оценки физически и интеллектуально доступны потенциальным пользователям? E-3: Содержат ли результаты оценки рекомендации относительно будущих действий?

Дополнительные угрозы валидности в количественных оценках [см. раздатку 7-2] 1. Угрозы валидности статистических выводов: почему выводы о статистической взаимосвязи между двумя переменными (например, воздействием и результатами проекта) могут оказаться невалидными 2. Угрозы внутренней валидности: почему заключения о том, что воздействие проекта вызвало наблюдаемы результаты, могут быть невалидными 3. Угрозы валидности конструктов: почему выбранные индикаторы могут неадекватно описывать конструкты и причинно-следственные связи в модели проекта 4. Угрозы внешней валидности: почему предположения о потенциальной возможности тиражирования проекта в других местах или с другими группами могут быть невалидными

151 Валидность статистических выводов Статистический анализ может привести к неверным выводам относительно того, что интервенции привели или не привели к наблюдаемым результатам. Были использованы неправильные тесты или они неправильно применялись Проблемы с дизайном выборки Ошибки измерения

152 Угрозы внутренней валидности Может быть сделано ошибочное заключение о связи между интервенцией и результатами проекта. Неясная временная последовательность, включающая события внутри проекта и результаты. Необходимость контролировать внешние факторы Эффекты времени Ненадежные измерения

Пример угрозы внутренней валидности: предполагаемая каузальная модель Женщины вступают в деревенский банк, где они получают кредиты, приобретают новые навыки и уверенность в себе ЧТО… Увеличивает доход женщин Усиливает контроль женщин над ресурсами домохозяйства household resources

Альтернативная каузальная модель Некоторые женщины ранее прошли ликбез, что привело к укреплению их уверенности в себе и приобретению новых навыков работы Женщины, прошедшие ликбез, с большей вероятностью вступят в деревенский банк. Их грамотность и уверенность в себе делает их более успешными предпринимателями Доход женщин и их контроль над ресурсами домохозяйства увеличиваются как результат ликбеза, повышения уверенности в себе и получения кредитов

155 Угрозы валидности конструктов Индикаторы результатов, влияния и контекстуальные переменные могут неадекватно описывать и измерять конструкты (гипотезы, концепции), на которых построена теория программы Индикаторы могут неадекватно измерять ключевые концепции Теоретическая модель программы и взаимодействие между ее элементами может быть не вполне адекватно описано

156 Угрозы внешней валидности Предположения о том, как результаты оценки могут быть использованы в других местах, могут быть ошибочными. Некоторые важные характеристики проекта могут быть не до конца поняты. Важные характеристики участников проекта могут быть не поняты. Сезонные и другие циклические эффекты могут быть пропущены.

Worksheet for assessing and addressing threats to validity [in English] See Handout 7-3 Worksheet

5. Учет общих угроз валидности во всех вариантах дизайна оценки

159 A. Возможность подтверждения Пример: Угроза A-1: неадекватное документирование методов и процедур Возможные способы учета: Потребовать от исследователей ревизии их документации и более полного объяснения методологии или включения недостающего материала Использовать методы быстрого сбора данных (анкеты, кабинетное исследование, вторичные данные) для заполнения пробелов

160 B. Надежность Пример: Угроза B-4: данные не были собраны ото всех необходимых респондентов, во всех нужных местах и в нудное время Возможные способы учета: Если исследование еще не было проведено, проверьте формирование выборки или используйте качественные методы для того, чтобы получить данные из нужных мест, от нужных респондентов и в нужное время Если сбор данных уже проведен, то рассмотрите возможность использования методов быстрого сбора данных – таких как фокус-группы, интервью с ключевыми информаторами, включенное наблюдение для заполнения пробелов в данных

161 C. Достоверность Пример: Угроза C-2: оценка выглядит неправильно и не отражает местного контекста Возможные способы учета Если исследование еще не было проведено, проверьте формирование выборки или используйте качественные методы для того, чтобы получить данные из нужных мест, от нужных респондентов и в нужное время Если сбор данных уже проведен, то рассмотрите возможность использования методов быстрого сбора данных – таких как фокус-группы, интервью с ключевыми информаторами, включенное наблюдение для заполнения пробелов в данных

162 D. Возможность переноса Пример: Угроза D-3: выборка не позволяет сделать обощение и перенести результаты на другие популяции Возможные способы учета: Организуйте встречи или консультации с ключевыми информаторами для того, чтобы проверить, к чему относятся проблемы: к недостатку информации, искажению фактов, интерпретации данных. Вернитесь в «поле» для того, чтобы заполнить пробелы или включите мнения кличевых информаторов, участников фокус-групп, включенных наблюдателей для того, чтобы обеспечить различные взгляды на ситуацию.

163 E. Использование Пример: Угроза E-2: Результаты не содержат рекомендаций относительно будущих действий. Возможные способы учета: Если у исследователей есть нужная информация, попросите их сформулировать рекомендации в более явном виде Если у них нет информации, проведите брейнсторминг с представителями сообществ или агентств-исполнителей для разработки более конкретных рекомендаций по будущим действиям

Молниеносная «обратная связь» Каковы самые серьезные угрозы валидности в той работе, которую вы выполняете? Как их можно учесть?

6. Additional reference material on threats to validity for quantitative evaluation designs [in English]

Additional threats to validity for Quasi-Experimental Designs [QED] [see Handout 7-2] 1. Threats to statistical conclusion validity why inferences about statistical association between two variables (for example project intervention and outcome) may not be valid 2. Threats to internal validity why assumptions that project interventions have caused observed outcomes may not be valid 3. Threats to construct validity why selected indicators may not adequately describe the constructs and causal linkages in the evaluation model 4. Threats to external validity why assumptions about the potential replicability of a project in other locations or with other groups may not be valid

167 Statistical conclusion validity The statistical design and analysis may incorrectly assume that program interventions have, or have not, contributed to the observed outputs. The wrong tests are used or they are applied/interpreted incorrectly Problems with sample design Measurement errors

168 Common RWE issues concerning statistical conclusion validity [F-1] Sample too small to identify statistical significance [F-4] Unreliability of measures weakens tests [F-6] Unreliability of treatment implementation. A common problem.

169 Threats to internal validity It may be incorrectly assumed that there is a causal relationship between project interventions and observed outputs. Unclear temporal sequence between the project and the observed outcomes. Need to control for external factors Effects of time Unreliable measures

170 Example of threat to internal validity: The assumed causal model Women join the village bank where they receive loans, learn skills and gain self-confidence WHICH ……… Increases womens income Increases womens control over household resources

171 An alternative causal model Some women had previously taken literacy training which increased their self- confidence and work skills Women who had taken literacy training are more likely to join the village bank. Their literacy and self- confidence makes them more effective entrepreneurs Womens income and control over household resources increased as a combined result of literacy, self- confidence and loans

172 Common RWE issues concerning threats to internal validity [G-2] Selection: many participants are self-selected or selection is not random. [G-6] Attrition: Rates are often high and the causes are difficult to monitor [G-8] Instrumentation: program administrators frequently change eligibility criteria to improve efficiency or respond to stakeholder pressures.

173 Threats to construct validity The indicators of outputs, impacts and contextual variables may not adequately describe and measure the constructs [hypotheses/concepts] on which the program theory is based. Indicators may not adequately measure key concepts The program theory model and the interactions between stages of the model may not be adequately specified.

174 Common RWE issues concerning threats to construct validity [H-1] Inadequate explanation of constructs. Definitions often vague [well-being, empowerment, improved health]. [H-2] Construct confounding. Need to define more clearly program interventions and how they are administered. [H-3 Mono-method bias. A single indicator may be used to define and measure a complex construct such as poverty, well-being, domestic violence.

175 Threats to external validity Assumptions about how the findings could be generalized to other contexts may not be valid. Some important characteristics of the project context may not be understood. Important characteristics of the project participants may not be understood. Seasonal and other cyclical effects may have been overlooked.

176 Common RWE issues concerning threats to external validity [I-2] Interaction of causal relationship over treatment variations: the effects may not hold with different socio-economic, cultural or regional groups. [I-4] Interaction of impact with settings. Difficult to adequately define all dimensions of setting. [I-6] Political interference or indifference. This may artificially enhance or reduce impacts. [I-7] Seasonal variations. Critical for many development projects.

7. Addressing threats to validity for Quantitative Evaluation Designs

178 F. Statistical conclusion validity Example: Threat F-4 Unreliability of indicators Possible ways to address: Allocate sufficient time and resources to develop and test the data collection instruments. Incorporate multi-method data collection approaches so that at least two independent measures are used for all key variables. Triangulation should be used to check on the reliability of the information.

179 G. Internal conclusion validity Example G-2: Selection biases Possible ways to address Compare participant characteristics with non-participants through constructing control group, or statistical control for participant characteristics. Use key informants and other sources to compare participant characteristics with those of people/families in similar areas. Direct observation in focus groups and other settings to assess the unique psychological characteristics of participants.

180 H. Construct validity Example: Threat H-8: Reactivity to the experimental situation Possible ways to address: Exploratory studies before the survey instrument is developed Direct observation of how people respond to the project situation.

181 I. External conclusion validity Example: Threats I-6 Political indifference or proactive interference Possible ways to address: Compare the attitudes of policymakers in different locations Interviews secondary sources key informants and assess how these differences appear to affect the project.

Международная Сеть «Оценка Программ» [IPEN] September 28, 2006 Оценка в реальном мире Планирование оценок в условиях финансовых и временных ограничений, а также при ограниченном доступе к информации Сессия 9 Способы усиления дизайна оценки

183 План сессии 1. Определение модели теории программы 2. Включение процессуального и контекстуального анализа 3. Проблемы выборки 4. Использование смешанных методов и триангуляции 5. Планирование времени и ресурсов для продолжения

Определение модели теории программы [см. RWE Глава 9] Все программы основаны на совокупности предположений о том, как программа должна работать Иногда это ясно описано в проектной документации Иногда это скрыто и может быть выявлено оценщиком

185 Дизайн [Формули- ровка и обо- снование] Входы Процесс выполнения [Действия] Непосред- ственные результаты Результаты проекта [заплани- рованные и непреднаме- ренные] Влияние [заплани- рованное и непреднаме- ренное] Устойчивость Экономический контекст поректа Политическое окружение и политический контекст Институциональный и операциональный контексты Социоэкономические и культурные характеристики популяций, на которые оказывается воздействие Простая модель теории (логики) программы Физическое окружение

186 Модели теории программ … продолжение Определение и тестирование критических предположений является важнейшим элементом модели теории программы Пример «цепочки результатов» для тестирования критических предположений относительно позитивного и негативного влияния мкрокредитов на малые бизнесы, собственниками которых являются женщины

187 У женщин ограниченные экономические возможности вследствие отсутствия доступа к кредитам и другим ресурсам, а также к социальному контролю Проект предлагает кредиты, техническую помощь и формирование групп Женщины создают бизнесы Женщины не создают бизнесы Используется как приданое Женщины расплачиваются с долгами Муж присваивает прибыль Получается прибыль Краткосрочное улучшение благосостояния домохозяйств Прибыль реинвестируется Бизнес продолжается Бизнес умирает Ограничения по времени Недостаток спроса Социальное давление Недостаток производительных сил Постоянное улучшение благосостояния домохозяйств Улучшение жилья Питание, здоровье, одежда Улучшение образования, особенно для девочек Экономические улучшения Теоретическая [цепочка результатов] модель для программы развития женского малого бизнеса Позитивные результаты Негативные результаты

Включение процессного и контекстуального анализа Многие проекты хорошо спланированы, но не оказывают влияния из-за проблем с их выполнением. Это может Снизить эффективность Привести к тому, что одни группы выиграют больше других Повлиять на устойчивость и тиражируемость

189 Процессный и контекстуальный анализ … продолжение Зачастую оценки не содержат информации о процессе выполнения программы Предполагается, что каждый получает один и тот же пакет услуг и одинакового качества Пример: Профилактика малярии включает таблетки (или противомоскитные сетки) и информационную сессию. Некоторые пациенты получают только таблетки (или сетки), так как медсестра занята, в то время как другие лишь участвуют в информационной сессии, когда заканчиваются таблетки и сетки. Как правило, не ведется записей о том, что получает каждый из пациентов

190 Дизайн [Формули- ровка и обо- снование] Входы Процесс выполнения [Действия] Непосред- ственные результаты Результаты проекта [заплани- рованные и непреднаме- ренные] Влияние [заплани- рованное и непреднаме- ренное] Устойчивость Экономический контекст поректа Политическое окружение и политический контекст Институциональный и операциональный контексты Использование процессного анализа для усиления квази-экпериментального дизайна Физическое окружение Сбор данных Из административных записей, от ключевых информаторов, наблюдение (включенное и нет), фокус-группы. Социоэкономические и культурные характеристики популяций, на которые оказывается воздействие

191 Ключевые вопросы для проведения порцессного анализа Мониторинг выполнения проекта Качество услуг Единообразие в оказании услуг Выполнение с участие или «сверху вниз» Факторы, влияющие на доступ различных групп к услугам и благам

192 Пример процессного анализа [раздатка 6-1] Проект строительства сельских дорог во Вьетнаме использовал административные документы для мониторинга процесса выполнения проекта Эти документы также были использованы для того, чтобы помочь понять критерии, использованные для отбора коммун, в которых будут строиться дороги Источник: Case study 2.

193 Методы процессного анализа Административные документы Управленческие информационные системы [MIS] Включенное наблюдение Невключенное наблюдение Ключевые информаторы Фокус группы

194 Включение контекстного анализа Проекты, которые выполняются одинаково, могут иметь различную эффективность и разные результаты в зависимости от местных контекстуальных переменных: Экономического контекста Политического окружениея и политического контекста Административного и организационного контекста Экологического контекста Социокультурных характеристик местного населения

195 Дизайн [Формули- ровка и обо- снование] Входы Процесс выполнения [Действия] Непосред- ственные результаты Результаты проекта [заплани- рованные и непреднаме- ренные] Влияние [заплани- рованное и непреднаме- ренное] Устойчивость Экономический контекст поректа Политическое окружение и политический контекст Институциональный и операциональный контексты Социоэкономические и культурные характеристики популяций, на которые оказывается воздействие Использование контекстного анализа для усиления квази-экспериментального дизайна Физическое окружение

196 Методы контекстного анализа Вторичные данные Включение информации в социоэкономические анкеты Быстрые опросы Включенное наблюдение Фокус-группы Ключевые информаторы Техники PRA (быстрая оценка с участием)

197 Анализ контекстуальных данных Качественный анализ Анализ отдельных случаев (Case studies) Включение фиктивных переменных в мультивариантный статистический анализ

198 Дизайн [Формули- ровка и обо- снование] Входы Процесс выполнения [Действия] Непосред- ственные результаты Результаты проекта [заплани- рованные и непреднаме- ренные] Влияние [заплани- рованное и непреднаме- ренное] Устойчивость Экономический контекст поректа Политическое окружение и политический контекст Институциональный и операциональный контексты Социоэкономические и культурные характеристики популяций, на которые оказывается воздействие Простая модель теории (логики) программы Физическое окружение Участие в проекте = фиктивная переменная [D] в регрессионном уравнении Переменные x 1, x 2, x n в регрессионном уравнении Переменные c 1, c 2, c n в регрессионном уравнении Черный ящик

199 Использование фиктивных переменных для анализа контекстных факторов Y 1 = f(d 1, c 1, c 2,..c n, x 1, x 2,.. x n, ) Где: Y 1 = влияние проекта d 1 = фиктивная переменная для проектной и контрольной групп [проект = 1; контр.группа = 0] c 1, c 2,..c n = фиктивные или интервальные переменные для контекстуальных факторов [напр., динамичная местная экономика=1, стагнирующая местная экономика=0] x 1 x 2,.. x n, = характеристики домохозяйств [размер, доход, уровень образования и т.д.]

Проблемы выборки A. Предубжедения в формировании выборки (см. случаи 2 и 6 в раздатке 6-1] B. Определение размера выборки [см. Сессию 4 слайды 33-42]

Использование смешанных методов и триангуляции для усиления дизайна оценки [См. RWE Глава 13] Сочетание количественных и качественных методов позволяет получить два или более значений ключевых переменных Оно также позволяет получить различные взгляды на интерпретацию данных Многуровневый анализ Индивид Домохозяйство Сообщество Организация

202 Смешанные методы могут быть использованы в Исследованиях для планирования или изучения ситуации Дизайне оценки и формулировании гипотезы Сборе данных Анализе данных Интерпретации и презентации данных

203 Использование триангуляции для повышения валидности и расширения интерпретации 1. Независимые значения изменения переменных влияния, полученные из анкетирования, наблюдения, фокус- групп, вторичных источников и т.д. 2. Значения подвергаются триангуляции 3. Если они совпадают, то повышается уверенность в результатах 4. Если они противоречивы, то требуется продолжение работы для выявления причин этого и корректировке значений

204 Пример, где триангуляция показывает сходящиеся значения изменения дохода Анкетирование домохозяйств Наблюдение Ключевые информаторы Household income has increased Доход домохозяйств увеличился

205 Пример, где триангуляция показывает расходящиеся значения изменения дохода Анкетирование домохозяйств Наблюдение Ключевые информаторы Доход домохозяйств увеличился Доход домохозяйств уменьшился

206 Триангуляция намного более эффективна, когда бюджет и время позволяют провести дополнительную работу над противоречивыми данными

207 Пример: проект водоснабжения в Индонезии Опрос показал, что во всех кроме одной деревнях водой занимались женщины Опрос не смог объяснить, почему в одном проекте женщины не были вовлечены в этот процесс. Это казалось ошибкой в отчете. Последующее качественное исследование обнаружило, что в этой деревне занимались молочным животноводством, а доить могли только женщины Поскольку молочное животноводство приносило больший доход, мужчины изъявили желание заниматься водой

Планирование времени и ресурсов для продолжения работы Триангуляция зачастую выявляет на стадии анализа противоречия в данных Важно запланировать последующее исследование для того, чтобы разобраться в причинах противоречий, следовательно надо иметь в резерве время и деньги для последующего анализа или для повторной работе в «поле»

209 Литература Bamberger, Rugh and Mabry. RealWorld Evaluation Chapters 10 and 14. Creswell, J. et al Independent Evaluation Group Conducting quality impact evaluations with budget, time and data constraints. World Bank. Rossi, Lipsey and Freeman Chapter 5