Ю. Н. Толстова Роль понятия признака в эмпирической социологии взгляд сквозь призму истории развития науки Предполагается знание элементов теории измерений,

Презентация:



Advertisements
Похожие презентации
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Предмет и методы Лекция 2.
Advertisements

Исследовательская работа по построению графиков функции Выполнила: Мухаметдинова Динара ученица 7 класса Кучуковской средней общеобразовательной школы.
Презентация к уроку по алгебре (10 класс) на тему: Презентация. Применение математической статистики в школе.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
МНОГОМЕРНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ. Совместное распределение термин, относящийся к распределению нескольких случайных величин, заданных на.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Минаева Татьяна Александровна Демьяненко Ирина Николаевна.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Лекция 7 Уравнение множественной регрессии Теорема Гаусса-Маркова Автор: Костюнин Владимир Ильич, доцент кафедры: «Математическое моделирование экономических.
Евклид древнегреческий математик ( до. н. э.) Евклид занимался астрономией, оптикой и теорией музыки. Он автор «Начал», по которым учились математики.
Работа Ивановой НАТАЛЬИ ученицы 9 «А» класса, руководитель: Семенова Е. В. г. ПСКОВ Муниципальное образовательное учреждение средняя образовательная школа.
Слово «статистика» происходит от латинского слова "статус"(status) - "определенное положение вещей"
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Лекция по МОП ТЕМА: Измерение связи двух признаков.
МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ Волков Денис Николаевич denisvolkov.com.
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
Лекция 2 – Идентификация закона распределения вероятностей одномерной случайной величины 2.1. Основные определения 2.2. Этапы обработки данных одномерной.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Нормальное распределение Тема 1. Вопросы для обсуждения 1.Случайная величина и ее распределение 2.Математическое ожидание и его оценка 3.Дисперсия и ее.
ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
Транксрипт:

Ю. Н. Толстова Роль понятия признака в эмпирической социологии взгляд сквозь призму истории развития науки Предполагается знание элементов теории измерений, математической статистики и анализа данных в объеме программы бакалавриата

Эмпирическая социология начинается с измерения Подумаем, зачем нужно измерение Принимаем идеи репрезентационной теории измерений Стивенс Стэнли Смит (Stevens Stanley Smith) ( ) 1939 ЭС МС Измерение – это моделирование Литература : Суппес Дж., Зинес Дж. Основы теории измерений // Психологические измерения. М.: Мир, С Пфанцагль И. Теория измерений. М.: Мир, 1976 Толстова Ю. Н. Измерение в социологии. М.: КДУ, 2007

Нечисловое измерение Изучение малых групп - отображение в граф МашаПетяНаташаСережаДаша Маша любит Петю, Петя любит Наташу, Наташа любит Сережу, Сережа любит Дашу, а Даша думает только о дружбе с Машей. Измерение с помощью социометрических методов нам позволило увидеть грустную картину человеческих отношений

Числовое измерение ЭС МС МашаДаша Удовлетворенность учебой Используется понятие непрерывной числовой переменной, хорошо моделирующейся с помощью прямой линии Понятие переменной ввел Декарт Рене ( ) Изучение числовых переменных продолжили Лейбниц Готфрид Вильгельм ( ) Ньютон Исаак ( ) создавшие Дифференциальное и интегральное исчисление Понятие числовой переменной оказалось очень эффективным в естественных науках

Годится ли для социолога понятие непрерывного признака? Не всегда! Проблемы имеются Приведём примеры Первый пример Зачем социолог настойчиво разбивает диапазоны изменения признаков на интервалы? Ясно: именно такое разбиение позволяет найти те статистические закономерности, которые ищет исследователь. Без этого за деревьями можно не увидеть леса. Существует много работ, посвященных предложению разных способов такого разбиения. Много содержательных разработок, показывающих, что при одном разбиении искомая закономерность четко проявляется, при другом – нет. То же – для формальных методов анализа данных. Скажем, всем известный критерий «Хи-квадрат», служащий для оценки связи между двумя признаками, при одном разбиении исходного признака на интервалы заставит нас принять гипотезу о независимости признаков, при другом - отвергнуть

Второй пример Многие «числовые» признаки, часто встречающиеся в социологических исследованиях, в действительности лишь служат индикатором каких-то латентных свойств объектов. Рассмотрим, например, возраст. Для директора дома отдыха, анализирующего документы приехавших, знание возраста каждого нужно только для того, чтобы определить, к какой из трех категорий каждый относится: к той, для которой нужно обеспечить песочницы и ведерки-совочки; той, для которой нужно альпинистское снаряжение; или той, для которой нужна тихая комната для просмотра телевизора. А как насчет справедливости соотношения возрастов: =20-10 с точки зрения оценки социальной зрелости? С содержательной точки зрения возраст может быть и номинальным, и порядковым, и вообще не отвечать никакому из привычных типов шкал.

Третий пример Признак может быть многомерным. Так, имеет ли смысл помещать респондентов на одну числовую ось, измеряя их отношение к работе, если в этом отношении существую два несвязанных друг с другом аспекта, касающиеся, соответственно, возможности реализовать себя и размера зарплаты? Четвертый пример Зачастую бывает непонятно, имеет ли смысл понятие типа шкалы. Например, Маша из Ростова-на-Дону получила «отлично» по математической статистике. То же верно для Даши из Новосибирска. Всегда ли мы можем быть уверены, что качество знаний у обеих девушек одинаково? Если не всегда, то можем ли мы говорить хотя бы о номинальности шкалы?

Мы говорили о непрерывном признаке. Не поможет нам и дискретность признаков. Пользуясь, скажем, тем же критерием Хи-квадрат для оценки связи между двумя номинальными (дискретными) признаками, мы вполне можем придти к выводу о том, что связи между полом и профессией нет, в то время как из таблицы будет видно, что все учителя – женщины. Серьезная социальная проблема (феминизация образования) окажется «замазанной» используемым критерием, поскольку он «рассматривает» признак как нечто цельное, как бы усредняет результаты по всем рассматриваемым альтернативам каждого признака, в то время как социолога вполне могут интересовать или только учителя, или только группа профессий, относимых обычно к «интеллигентским» (например, учителя, врачи, художники и артисты вместе) и т.д. Посмотрим, о чем говорит история развития социологических методов. Где был тот момент, когда стало ясно, что понятие признака не всегда годится для социолога? Да и был ли он? Ведь и сейчас самый распространенный способ представления исходных данных – это матрица объект-признак. Не годится само понятие признака Дискретные признаки тоже часто не могут устроить социолога

Рассмотрим самую основную линию развития социологических методов - линию, связанную с теорией вероятностей и математической статистикой. Именно на эти ветви математики опирается подавляющее большинство методов измерения и анализа данных Теория вероятностей ( ТВ ) и математическая статистика ( МС ) в период примерно с середины XVII до середины XIX веков развивались в тесной связи с развитием эмпирической социологии ( ЭС ). Математика и социология друг друга « подталкивали ». Ученые, занимающиеся естественными науками, принципиально отвергали статистический способ познания реальности, призывая к использованию типологического подхода Перейдем к истории

Т Граунт Джон ( ) «Естественные и политические наблюдения …» Установил устойчивость ряда частот, характеризующих развитие общества Кондорсе Лаплас Пьер Симон ( ) Великий математик, получавший социологические результаты ) Теория вероятностей Элементы ТВ Паскаль Блэз ( ) Ферма Пьер ( ) Переписка. Рождение основных понятий ТВ Переписка. Рождение основных понятий ТВ Бернулли Якоб ( ) «О законе больших чисел» Рождение понятий выборки и генеральной совокупности Кондорсе Мари Жан Антуан Николя ( ) «Эскиз исторической картины прогресса человеческого разума» Призывал активно использовать ТВ в социологии Лаплас Пьер Симон ( ) Великий математик, получавший и социологические результаты Кетле Ламберт Адольф Жак ( ) Построил социальную физику на базе ТВ Эмпирическая социология Джероламо Кардано ( ) «Книга о случайности и играх» Первичные понятия ТВ

ТВ поначалу имела дело с дискретными событиями ЭС и ТВ вполне «удовлетворяли» друг друга Между тем в математике бурно развивалась мощная ветвь, направленная на изучение непрерывных числовых переменных - дифференциальное и интегральное исчисление (ДИИ) ЭС и ТВ по-разному на неё «реагировали» И «дружба» на время прекратилась ЭС «заметила» теорию непрерывных переменных далеко не сразу ТВ, соединяясь с ДИИ, постепенно породила математическую статистику ТВЭС

ТВ и числовой признак основная историческая линия лет теорией вероятностей пользовались в основном ученые обществоведы и понятие числового признака относительно медленно проникало в ТВ. Как это было? С XV до середины XVIII века ТВ рассматривала дискретные события 1733 Абрахам де Муавр ( ) вводит понятие нормального распределения, но как предельную форму дискретного биномиального 1809 Гаусс Карл Фридрих ( ). «Теория движения небесных тел». Вводит понятие нормального распределения в современном виде 1812 Лаплас Пьер Симон ( ) в работе «Аналитическая теория вероятностей» независимо от Гаусса делает то же 1867 Чебышёв Пафнутий Львович ( ). «О средних величинах» Рождается понятие случайной величины – основного объекта изучения МС и ТВ

ТВ и числовой признак основная историческая линия Колмогоров Андрей Николаевич ( ) « Основные понятия теории вероятностей ». Современное представление о случайной величине Рождаются ТВ и МС в современном понимании 200 лет ученые –естественники категорически отрицали необходимость использования статистического метода познания. Но в середине XIX века родилась теория газов и … всё изменилось Основатель статистической физики – Максвелл Джеймс Кларк ( ) ТВ+ ДИИ = понятие случайной величины Почва для развития МС Под воздействием физики МС и ТВ начали бурно развиваться В основе развития – числовая случайная величина Социологи перестали узнавать то, в рождении чего принимали активное участие, отшатнулись от ТВ и МС

ТВ и числовой признак Основная историческая линия - 3 Итак, примерно к 1930 году родилась МС в современном понимании этого слова Её объект изучения – числовые переменные (случайные величины) Предме т – параметры их распределений Цель – на основе выборочных распределений дать определенные оценки того, что делается в генеральной совокупности Точечное и интервальное оценивание параметров Проверка статистических гипотез В рамках МС развивались методы поиска статистических закономерностей (закономерностей в среднем) Методы изучения связей между переменными Регрессионный, дисперсионный, причинный анализ Коэффициент парной корреляции обобщается: рождаются коэффициент детерминации, множественной корреляции, канонической корреляции Методы классификации Большинство известных методов разработаны в рамках анализа данных Здесь - часть тех, которые основаны на геометрическом представлении данных (например, алгоритмы разделения смесей)

ЭС и числовой признак Основная историческая линия - 1 Cередина XVII конец ХIХ века. Частотные таблицы. Изучение связей на их базе. Союз с ТВ на базе изучения дискретных явлений Милль Джон Стьюарт ( ) анализ дискретных связей без ТВ и МС

ЭС и числовой признак Основная историческая линия - 2 Середина ХХ века Лазарсфельд Пауль Феликс ( ) создатель латентно-структурного анализа задумывается о том, дискретна или непрерывна латентная переменная Истории вопроса большое внимание уделяет соавтор Лазарсфельда : Neil W. Henry. Latent Structure Analysis at Fifty. Virginia Commonwealth University Richmond VA , 1999 ЭС и числовой признак Основная историческая линия - 2

К середине ХХ века социология постепенно начала использовать методы МС, сопряженные с числовыми переменными, но это продолжалось недолго 50-летние дебаты по поводу того, стоит ли считать непрерывной латентную переменную, сопровождались изменением отношения социологии к методам поиска статистических закономерностей. Это отношение находилось в тесной взаимосвязи с изменением самой совокупности этих методов. Одно детерминировало другое Изменения в методах, в частности, сопровождались пересмотром роли моделей, базирующихся на предположении о существовании числовых (и не только числовых) переменных. Но не только это волновало ученых. Примерно в середине ХХ века наука начала пересматривать подход МС к изучению статистических закономерностей Стало ясно, что за отказом социологии на стыке XIX и ХХ веков от идей МС можно усмотреть нечто глубинное (хотя нельзя отрицать и то, что зачастую такой отказ сопрягался и с недостаточной методической грамотностью социологов)

Родился Анализ данных (АД) Один из главных создатетей его идеологии Тьюки Джон Уилдер ( ) Чем АД отличается от МС? - эвристичность, нестрогость алгоритмов - отсутствие возможности для многих методов переносить результаты с выборки на генеральную совокупность - необходимость постоянного диалога между исследователем и компьютером К середине ХХ века стало ясно, что МС не справляется с теми задачами, которые ставила перед ней жизнь и, в частности, социология (равно как и многие другие науки)

В рамках АД стали развиваться подходы, говорящие о том, что «засилье» числовых переменных пошатнулось. Выделим три направления, важных именно для социолога Направление 1. В основе многих социальных явлений всё же лежат числовые признаки, но они, как правило, с большим трудом поддаются измерению Чтобы их измерить, надо прибегать к нетривиальным методам сбора данных, преобразовывая их далее с помощью довольно сложных процедур Многомерное шкалирование (исходные данные - матрицы близостей между шкалируемыми объектами) Методы парных сравнений (исходные данные – результаты попарного сравнения респондентами шкалируемых объектов) Conjoint analysis (исходные данные – сочетания значений номинальных признаков, за которыми «стоят» измеряемые числовые). Подчеркнем принципиальную важность появления конджойнт-анализа. Несмотря на то, что в итоге он позволяет измерить числовые латентные признаки, сам способ сбора данных говорит о важности для человека рассмотрения сочетаний значений отдельных признаков. О том, что человек в обыденной жизни часто мыслит именно такими сочетаниями, косвенно говорят - появление указанных ниже таких методов поиска сочетаний, которые не опираются на предположения о существовании числовых латентных переменных) - появление в психологии теории виньеток (виньетка - это как раз и есть упомянутое сочетание; конджойнт анализ – это по сути теория виньеток )

Направление 2. Социологические явления описываются т.н. категориальными признаками (номинальными и порядковыми) Числовые переменные «работают», только если диапазон их изменения разбить на интервалы Логлинейный анализ (анализ многомерных таблиц сопряженности) Generalized Linear Models Логистическая регрессия Agresti Alan. An Introduction to Categorical Data Analysis. John Wiley and Sons, Inc., 1996 В методах, упомянутых выше, признак (числовой, либо категориальный) предполагается как бы объективно существующим (естественно, по сути это означает адекватность соответствующих модельных предположений, любой признак – это только модель). Приведем пример. Профессия – это нечто имеющее социальный смысл. А ведь можно также предполагать, что та же профессия с точки зрения решаемой с помощью АД задачи - это некий удобный способ систематизировать такие качества человека, как «быть токарем», «быть пекарем», «быть лекарем», интересующие исследователя каждая сама по себе, вне связи с другими. Первую точку зрения можно ассоциировать с социологическим реализмом, вторую – с социологическим номинализмом. Толлстова Ю.Н. Анализ социологических данных. М.: Научный мир, 2000 Следу.ющее направление лежит в русле второй точки зрения

Направление 3. Социальные явления описываются чаще всего с помощью сочетаний значений отдельных признаков. Признаки не представляются для социолога интересными сами по себе. Сочетания для разных объектов (людей ) могут отвечать разным признакам, количество признаков тоже может быть различным. Пример: за кандидата N голосуют бывшие военные с высшим экономическим образованием и мужчины, сельские жители, имеющие трех поросят Алгоритмы типа AID (automatic interaction detector) Методы поиска логических закономерностей Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Н.: Наука, 1981 Финн В.К. Интеллектуальные системы и общество. М.: URSS, 2006 (описанная в книге компьютерная система названа по инициалам Д жона С тьюарта М илля; автор считает, что этот ученый является основоположником того направления в науке, которое впоследствии было связано с созданием искусственного интеллекта)

Во второй половине ХХ века АД вступил в новую фазу. Родился DATA MINING Он имеет две стороны Первая. Иногда DATA MINING называют интеллектуальным анализом данных, поскольку он включает в себя много алгоритмов, обычно относимых к области создания искусственного интеллекта. И эта сторона, несомненно, привлекательна для социологов. Среди упомянутых алгоритмов, в частности, фигурируют алгоритмы типа AID. Вторая. Рассчитанность на возможность обсчета огромных массивов данных людьми, не разбирающимися в методах. И это у нас вызывает определенную настороженность, поскольку главная составляющая успешности применения анализа данных для решения социологических задач – это пристальное внимание социолога к тем моделям, которые заложены в используемых методах. Надеемся, что все сказанное в данной презентации по поводу одной из самых главных модельных составляющих – интерпретации понятий используемых признаков - даст возможность читателям-слушателям убедиться в важности внимательного отношения к модельным предположениям.