|
Обработка на компьютере: биномиальный критерийИсходные данные: значения бинарной номинативной переменной (0, 1) определены для каждого члена выборки и представлены одним столбцом. Выбираем: Апа1ухе (Метод) > 1Чопрагате1пс (Непараметрические ме тоды) > Вшопна1... (Биномиальный). В открывшемся окне диалога переносим необходимую бинарную переменную из левого в правое окно (Те$1 УапаЫе Ш1), переменных может быть несколько. Если теоретическое распределение является равномерным, то нажимаем ОК и получаем результаты. Если теоретическое распределение не является равномерным, то необходимо задать ожидаемые (теоретические) пропорции (доли) для той градации, которая встречается в данных раньше. Для этого в окне Те$(ргорогйоп (Ожидаемая пропорция) вводим ожидаемую долю для градации. Нажимаем ОК и получаем результаты.
ОЬзегуес! Ргор. — наблюдаемая доля для каждой категории (Са1е§огу); Те$1 Ргор. — теоретическая доля для первой из категорий; Ехас1 51§. (ЫаПей) — точное значение р-уровня для односторонней альтернативы (направленной гипотезы). Примечание. Если проверяется ненаправленная гипотеза, то полученное значение р-уровня необходимо умножить на 2. Более двух градаций Как и в предыдущем случае, при сопоставлении нескольких градаций чаще всего проверяют гипотезу о том, различаются ли по численности соответствующие доли совокупности. Это соответствует задаче сопоставления эмпирического и равномерного теоретического распределения. Но ожидаемое (теоретическое) распределение может быть и любым другим: последовательность решения при этом не меняется. Для проверки подобных гипотез применяют критерий %2-Пирсона (формула 9.1), который еще называют критерием согласия (эмпирического и теоретического распределений). ПРИМЕР 9.3_____________________________________________________________________ С целью предсказания результатов выборов исследовалось предпочтение потенциальными избирателями пяти политических лидеров. По результатам опроса репрезентативной выборки из 120 респондентов была составлена таблица распределения их предпочтений:
Можно ли утверждать, что в совокупности всех потенциальных избирателей наблюдаются существенные различия в соотношении предпочтений пяти политических лидеров? Иначе говоря, отличается ли распределение предпочтений потенциальных избирателей от равномерного распределения? Отметим, что в отношении данной группы респондентов ответ очевиден: да, предпочтения распределены явно не равномерно. Но вопрос при статистической проверке формулируется иначе: можно ли распространить этот вывод на генеральную совокупность, из которой извлечена данная выборка респондентов? Поскольку N>100, выбираем для принятия статистического решения а = 0,01. Н0: эмпирическое распределение соответствует теоретическому равномерному распределению. Задача сводится к сопоставлению эмпирического распределения с идентичным по общей численности, но равномерным теоретическим (ожидаемым) распределением:
По формуле 9.1 число слагаемых Р= 5, к= 5,1=2, с1/= 4. . 2 _ (21 -24)2 (37-24)2, (29-24)2, (15-24)2, (18-24)2 У------------------ 1-------------- 1-------------- 1-------------- 1-------------- 15,555. 24 24 24 24 24 По таблице критических значений теоретического распределения %2-Пирсона (Приложение 4) для с!/= 4 видим, что наше эмпирическое значение %2Э меньше критического значения для р = 0,01. Следовательно, в соответствии со схемой определенияр- уровня для данного случая р < 0,01. Так как р < а, то принимаем статистическое решение: отклоняется нулевая гипотеза о соответствии распределения предпочтений в генеральной совокупности равномерному распределению. Таким образом, корректен следующий содержательный вывод: обнаружены различия в предпочтениях потенциальными избирателями пяти политических лидеров (р < 0,01). Отметим, что в этом случае, отклоняя Н0, мы принимаем альтернативную гипотезу о том, что распределение предпочтений является неравномерным. Но альтернативная гипотеза не содержит и не может содержать утверждения о том, что в какой-то конкретной ячейке наблюдений больше, а в какой-то меньше. Любая конкретизация этого утверждения будет некорректной. Для утверждений о том, что в какой-то ячейке (градации) наблюдений больше или меньше, необходима дополнительная статистическая проверка. Например, на первый взгляд справедливое утверждение о том, что лидер № 2 предпочитается чаще, чем лидер № 3 (пример 9.3), при дополнительной статистической проверке не подтверждается. Сравнение распределения 37:29 с ожидаемым равномерным распределением 33:33 дает: %2Э= 0,970; с1/= 1. Величина эмпирического значения критерия меньше критического значения для с1/= 1, р = 0,1 (эмпирическое значение располагается левее критического значения критерия для р = 0,1). Следовательно, в данном случае р > 0,1, Н0 не отклоняется: не обнаружены различия в предпочтениях двух политических лидеров (р > 0,1). Подобная проблема множественных сравнений возникает всегда, если нулевая гипотеза содержит утверждение о равенстве более чем двух величин. При ее отклонении принимается альтернативная гипотеза, содержащая изрядную долю неопределенности: сравниваемые величины не тождественны. Для конкретизации этого утверждения необходимы, как правило, парные сравнения величин, в отношении которых проверяется гипотеза. Обработка на компьютере: критерий согласия /2 Исходные данные: значения номинативной переменной (более 2-х градаций) определены для каждого члена выборки и представлены одним столбцом. Выбираем: Апа!уге (Метод) > 1\'опрагате1пс 1е$1§ (Непараметрические методы) > СЫ-эдиаге... (Хи-квадрат). В открывшемся окне диалога переносим необходимую переменную из левого в правое окно (Те$1 УапаЫе Ы81), переменных может быть несколько. Если теоретическое распределение является равномерным, то нажимаем ОК и получаем результаты. Если теоретическое распределение не является равномерным, то необходимо задать ожидаемые (теоретические) пропорции (доли) для каждой градации (сумма долей должна быть равна 1). Для этого вместо Ехрес1ей Уа1иев: А11 са(е§опе$ е^иаI (Ожидаемые значения: все категории тождественны) отмечаем точкой Ехрес1ес1 Уа1ие$: Уа1ие$ (Значения). После этого вводим ожидаемую долю для наименьшей категории, затем нажимаем АсМ (Добавить), затем вводим долю для наименьшей из оставшихся категорий, и т. д. — до последней категории. Последовательность значений долей появится в нижнем окне. Нажимаем ОК и получаем результаты. Результаты (для данных примера 9.3) А) Таблица частот (РУедиепс1е$) уаг
а 0 се11з (.0%) ЬаVе ехресЬед 1:гедиепс1ез 1езз ЬЪап 5. ТЪе ш1п1шиш ехресСей се11 Егедиепсу 13 24.0. СЫ-8яиаге — значение %2Э; А$утр. — /ьуровень значимости. АНАЛИЗ ТАБЛИЦ СОПРЯЖЕННОСТИ Анализ таблиц сопряженности применяется для решения задач, которые могут быть сформулированы следующим образом: 1. Необходимо сравнить два (или более) распределения между собой. Например, различаются ли мужчины и женщины по распределению предпочтений пяти политических лидеров? 2. Необходимо определить связь между двумя номинативными признаками (между классификациями объектов по двум разным основаниям). Например, связано ли соотношение предпочтений трех групп напитков (соки, лимонады, минеральные воды) с сезонностью (зима, весна, лето, осень)? Нетрудно заметить, что эти задачи отличаются лишь словесными формулировками. Так, изучение связи между двумя номинативными переменными тождественно сравнению градаций одной номинативной переменной по распределению другой номинативной переменной. Например, изучать сезонную зависимость предпочтений различных напитков — то же самое, что сравнивать сезоны по распределению предпочтений этих напитков. А изучать связь двух оснований классификации респондентов — по полу и по политической ориентации — то же самое, что сравнивать распределение мужчин и женщин по политической ориентации. В подобных случаях подразумевается анализ таблиц сопряженности, в которых столбцы соответствуют сравниваемым распределениям (градациям одной номинативной переменной), а строки соответствуют градациям сравниваемых распределений (градациям другой номинативной переменной). Формулировка проверяемой Н0: классификация объектов (людей, событий) по одному основанию не зависит от их классификации по другому основанию. Исходные данные: определена принадлежность каждого объекта выборки к одной из градаций первой номинативной переменной и к одной из градаций второй номинативной переменной. Иными словами, две номинативные переменные измерены на выборке объектов. Строки таблицы сопряженности соответствуют градациям одной номинативной переменной, столбцы — градациям другой номинативной переменной. Если проверка содержательной гипотезы предполагает анализ таблицы сопряженности, то принципиальным является вопрос о размерности таблицы. Будем различать два случая: □ общий случай (число градаций хотя бы одного из признаков больше 2-х), □ частный случай: таблицы сопряженности 2x2 (по две градации для каждой переменной). Эти случаи различаются как порядком расчетов, так и особенностями интерпретации. Число градаций больше двух По сравнению с анализом классификации, специфика применения критерия х2-Пирсона (формула 9.1) к таблицам сопряженности заключается в том, что теоретические частоты рассчитываются отдельно для каждой ячейки таблицы. Таким образом, число слагаемых в формуле 9.1 равно количеству ячеек таблицы сопряженности и равно Р = к-1, где к — число строк, / — число столбцов: к-1 (Г — Г \2 х1=ь; > а/=(к-\)(1-\). (9.2) /=1 Формула для расчета теоретической частоты для ячейки /-строки и./-столбца:
//■/у (9.3) N где — сумма частот во всех ячейках /-строки;^- — сумма частот во всех ячейках /-столбца; N— сумма частот всей таблицы сопряженности. ПРИМЕР 9.4 Для каждого респондента репрезентативной выборки определены: а) пол; б) один из пяти предпочитаемых политических лидеров:
Проверяется содержательная гипотеза о зависимости политических предпочтений от пола. Н0: классификации объектов по двум основаниям являются независимыми (распределение объектов по полу не зависит от их распределения по предпочтениям политических лидеров). Проверяем Н0 на уровне а = 0,05. Шаг 1. Составляем таблицу сопряженности для теоретических (ожидаемых) частот — с теми же полями, что и для таблицы эмпирических (наблюдаемых) частот. Рассчитываем значения теоретических частот для каждой ячейки этой таблицы по формуле 9.3. „ 51-16
для ячеики (х,, у,) /т———'>''> для ячейки (х,, у2) /т 51-29,.„„ для ячейки (х,,_у3) Л ~ 105 =14,09; /■ 5МЗ «1 для ячейки (х,, >>4) Л = ^ =. г 5110,„,. для ячейки (хи у5) Л = ^ = %во, , 54 16 для ячейки (х2, У\) Л - ^ - 54-37 для ячейки (х2, у2) Л = ^ = 19,03; г 54-29,.П1 для ячейки (х2, у$) Л = ^ =14,91, 54'13 /с/со для ячейки (х2, уц) Л - ^ - , _ 5410... для ячейки (х2, у5) Л —- э>14-
Отметим, что суммы теоретических частот по строкам (столбцам) должны быть равны соответствующим суммам эмпирических частот. Ш а г 2. Рассчитываем эмпирическое значение критерия х2-Пирсона и число степеней свободы по формуле 9.2. 2 _ (5-1,II)2 (25-17,97)2 (10-14,09)2 (8-6,31)2 (3-4,86)2 (11-8,23)2 ~ 7,77 17,97 14,09 6,31 4,86 8,23 (12-19,03)2 (19-14,91)2 (5-6,69)2 (7-5,14)2 _п 19,03 14,91 6,69 5,14 ё/= (к- 1)(/- 1) = (2- 1)(5 - 1) = 4. Ш а г 3. Определяем р-уроеень по таблице критических значений %2-Пирсона и принимаем статистическое решение. Для аУ= 4 наше эмпирическое значение располагается между критическими для р = 0,05 ир = 0,01. Следовательно, /ь уровень в нашем случае р < 0,05. Мы можем отклонить Н0. Ш а г 4. Формулируем содержательный вывод. Обнаружена статистически значимая зависимость политических предпочтений от пола (р < 0,05). Порядок расчетов остается тем же для любого числа градаций того и другого признака, за исключением случая таблиц сопряженности 2x2. Для упро
ЕЕ- / = 1 у = 1 /) Х/у
где И— общая численность выборки; к, I — число строк и столбцов таблицы сопряженности. Обратим внимание, что при отклонении Н0 принимается альтернативная гипотеза о связи двух оснований классификации, которая проявляется по крайней мере для одной ячейки таблицы сопряженности. Но остается неизвестным то, в отношении каких именно ячеек таблицы сопряженности связь проявляется, а в отношении каких — не проявляется. Иными словами, возникает проблема множественных сравнений. И для дальнейшей конкретизации результатов необходим анализ соотношения 2-х долей или таблиц сопряженности 2x2. Исследование связи пола и предпочтений политических лидеров (см. пример 9.4) может быть продолжено. Так, может быть дополнительно проверена гипотеза о том, что лидер № 2 предпочитается чаще мужчинами, чем женщинами. Тогда необходимо сравнивать эмпирическое распределение предпочтений мужчин и женщин (25:12) с равномерным распределением (13,5:13,5) — при помощи метода сопоставления эмпирического и теоретического распределений. Может быть также проверена гипотеза о том, что лидер № 2 чаще предпочитается мужчинами, а лидер № 3 — женщинами. Тогда необходимо сопоставить два эмпирических распределения: 25:12 и 10:19 — при помощи анализа таблиц сопряженности 2x2. Таблицы сопряженности 2x2 Существует большое разнообразие различных ситуаций, когда по результатам исследования может быть построена таблица сопряженности 2x2. Их объединяет то, что объекты (испытуемые, события) классифицированы по двум основаниям, каждое из которых представляет собой дихотомию. Важно различать два варианта такой классификации объектов: 1) по двум различным дихотомическим основаниям — случай независимых выборок; 2) по одному и тому же дихотомическому основанию дважды (например, до и после воздействия) — случай зависимых выборок. ПРИМЕРЫ_______________________________________________________________________ 1. Случай независимых выборок. Две группы больных известной численности получали курс лечения разными методами. Подсчитывалось число рецидивов заболевания в той и другой группе. Одна переменная — «метод лечения» (1-й, 2-й), другая — «рецидив» (есть, нет). 2. Случай зависимых выборок. Подсчитывалось число тех, кто «за», и тех, кто «против» смертной казни: до и после убедительной лекции о введении моратория на смертную казнь. Одна переменная — «до лекции» («за», «против»), другая переменная — «после лекции» («за», «против»). Для независимых выборок применяется критерий х2-Пирсона, а для зависимых более адекватным является метод Мак-Нимара. Независимые выборки Это наиболее часто встречающаяся ситуация применения таблиц 2x2, когда одна группа объектов классифицируется по двум дихотомическим основаниям и проверяется гипотеза о связи этих двух оснований классификации. По сравнению с другими таблицами сопряженности особенность таблиц 2x2 проявляется в трех отношениях. 1. Эти таблицы могут быть построены разными способами, но только один из них является правильным в отношении применимости критерия х2- Пирсона. 2. Допустима проверка направленных альтернатив. Соответственно, меняется способ определения /ьуровня значимости. 3. В некоторых случаях при расчете х2-Пирсона необходимо введение поправки на непрерывность Йетса. Рассмотрим эти особенности на примере. ПРИМЕР 9.5______________________________________________________________________ Предположим, для изучения влияния 2-х условий запоминания материала 100 испытуемых были случайным образом разделены на две группы: по 50 человек для каждого из условий. После обучения количество усвоивших этот материал в первой группе составило 24 человека, а во второй — 34 человека. Можно ли утверждать, что различия в условиях влияют на результативность обучения? Данные примера 9.5 могут быть представлены тремя способами, но только один из них является верным. Правильный способ представления данных примера 9.4 в таблице:
В последних двух случаях таблицы не содержат информации о тех, кто не усвоил материал. Поэтому уменьшаются шансы обнаружить достоверные различия, даже если они есть. Как отмечалось, специфика применения х2-Пирсона в подобных случаях проявляется и в том, что это тот случай, когда допустима проверка как ненаправленной, так и направленной статистической гипотезы. Важность определения того, какая из этих двух гипотез проверяется, обусловлена тем, что в отношении одних и тех же данных при проверке направленной альтернативы значение р-уровня в два раза меньше, чем при проверке ненаправленной альтернативы (см. главу 7: Направленные и ненаправленные альтернативы).
Любые сомнения при выборе между направленной и ненаправленной статистической гипотезой решаются в пользу ненаправленной альтернативы! Рассмотрим различия ненаправленной и направленной альтернативы в отношении данных примера 9.5. Они могли быть получены в ходе сравнения двух способов запоминания — без предварительных предположений о том, какой способ лучше. Исследователя при этом интересуют два случая (направления) отклонения Н0: а) «запоминание лучше при условии 1»; б) «запоминание лучше при условии 2». Такая проверка предполагает ненаправленную альтернативу. Соответственно, при отклонении Н0 допустим как тот, так и другой вывод. Или эти данные могли быть получены в ходе проверки предположения о том, что новый (второй) способ является более эффективным, чем традиционный (первый). Исследователя тогда будет интересовать только один исход: «запоминание лучше при условии 2». Эта проверка предполагает направленную альтернативу, а при отклонении Н0 допустим только один вывод — о превосходстве условий 2. ПРИМЕР, КОГДА ОПРАВДАНА ПРОВЕРКА НАПРАВЛЕННОЙ ГИПОТЕЗЫ___________
Как указывают различные авторы, односторонний критерий х2-Пирсона, который применяется для ненаправленных гипотез, в данном случае «превращается» в двусторонний1. Таким образом, для проверки направленных гипотез р-уровень для таблиц 2x2, определенный по таблице для ненаправленной гипотезы (как двусторонний), делится на 2. Другая особенность применения х2-Пирсона заключается во введении поправки на непрерывность Йетса. В соответствии с ней формула 9.1 для таблиц 2x2 приобретает вид: \2 %1 = ^ (1/э /т1 0,5)2, <//= 1. (9.4) (= 1 /т ПРИМЕР 9.5 (продолжение) Предположим, данные примера 9.5 относятся к ситуации проверки содержательного предположения о большей эффективности нового метода обучения (условие 2) по сравнению с традиционным методом (условие 1). Ш а г 1. Формулируется направленная статистическая гипотеза. Направленная Н0: При условии 2 вероятность усвоения материала не выше, чем при условии 1. В связи с тем, что объемы сравниваемых выборок не очень велики, можно принять а = 0,05. Ш а г 2. Вычисляется эмпирическое значение х2-Пирсона с поправкой Йетса. Теоретические частоты подсчитываем по формуле 9.3: /г
Эмпирическое значение х2-Пирсона с поправкой на непрерывность х2 = 3,325. Ш а г 3. Определение р-уровня для направленной статистической гипотезы. Определяем по таблице критических значений критерия х2-Пирсона р-уровень значимости. Наше эмпирическое значение располагается между критическими для р = 0,1 и р = 0,05. Следовательно, для ненаправленных гипотез в нашем случае р < 0,1. Но с учетом того, что мы проверяем направленную гипотезу, окончательное значениер-уровня: р < 0,05. 1 Доказательство этого см., например: Кендалл М., Стьюарт А. Статистические выводы и связи. М., 1973. С. 744-745; Справочник по прикладной статистике. В 2 т. Т. 1 / Под ред. Э. Ллойда, У. Ледермана, Ю. Тюрина. М„ 1989. С. 370-377. Ш а г 4. Принятие статистического решения и формулировка содержательного вывода. Статистическое решение: Н0 отклоняется. Содержательный вывод: эффективность усвоения материала в условиях обучения № 2 статистически значимо выше, чем в условиях № 1 (х2 = 3,325, 4Г= 1,р< 0,05). Отметим, что при проверке ненаправленной гипотезы для тех же данных статистическое решение и, следовательно, содержательный вывод были бы другими. X2-Пирсона с поправкой на непрерывность применим для анализа таблиц сопряженности 2x2, когда N>40,0 если ни одна из теоретических частот не меньше 5, то при N>20} Если таблица сопряженности 2x2 не удовлетворяет этим требованиям (%2-Пирсона с поправкой на непрерывность не применим), то можно воспользоваться расчетом точного значения р-уровня по Фишеру (ПзИег'з ехас((ез1 — точный критерий Фишера) — односторонним (1-зк1ес1), для направленных гипотез, или двусторонним (2-$нЗес1), для ненаправленных альтернатив. Его расчет «вручную» является трудоемким, поэтому необходимо воспользоваться компьютерной программой (8Р88, §Ш1з(лса — см. конец этой главы). Повторные измерения Структура исходных данных соответствует ситуации, когда одна выборка объектов классифицирована на две группы дважды по одному и тому же основанию. Рассмотрим проверку гипотезы в отношении таких данных на примере. ПРИМЕР 9.6_____________________________________________________________________ Исследовалось влияние убедительной лекции о введении моратория на смертную казнь. Число респондентов N= 60. Подсчитывалось число тех, кто «за», и тех, кто «против» смертной казни до и после лекции. Одна переменная — «до лекции» («за», «против»), другая — «после лекции» («за», «против»). В таблице исходных данных в таких случаях каждой строке (объекту выборки) соответствуют два значения (в двух столбцах — «до», «после») одной и той же бинарной номинативной переменной («за», «против»). Таблица сопряженности для таких данных (например, построенная при помощи компьютерной программы):
' См. там же. Действительно, применяя этот метод, мы будем проверять гипотезу о связи классификации ответов до лекции с классификацией ответов после лекции, а нас интересует влияние лекции («до» — «после») на распределение ответов («за» — «против»). Тем не менее, попробуем применить х2-Пирсона с поправкой на непрерывность к этой таблице. Получим: х2 = 0,93, й/= 1, р > 0,1. В подобных случаях применяется метод Мак-Нимара. Этот метод позволяет сопоставить долю тех, кто не обладал некоторой характеристикой (0) до воздействия, но стал обладать ею после воздействия (1), с долей тех, кто обладал этой характеристикой до воздействия (1) и перестал обладать ею после воздействия (0). Иначе говоря, метод позволяет сопоставить диагональные элементы таблицы сопряженности 2x2 (0,1 и 1,0 или 0,0 и 1,1), построенной непосредственно по дважды проведенной дихотомической классификации одной и той же выборки. Речь идет о таблице 2x2, построенной непосредственно по результатам дихотомической классификации двух зависимых выборок (одной и той же выборки — дважды):
Метод Мак-Нимара позволяет по этой таблице проверить две гипотезы: о соотношении а и с? (0,1 и 1,0); о соотношении с и Ъ (0,0 и 1,1). Проверка гипотезы проводится по г-критерию по формулам для эмпирического значения1: с-Ь а-й = I—- или г3 =-т==, (9.5) л1с + Ь у/а + с! где си Ъ — одна пара диагональных элементов таблицы, для проверки одной гипотезы; ажй — другая пара диагональных элементов, для проверки другой гипотезы. Для определения /ьуровня значимости эмпирическое значение гэ сравнивается с теоретическим — единичным нормальным распределением. Ограничение на применение метода Мак-Нимара: сумма сравниваемых частот не должна быть меньше 10. ПРИМЕР 9.6 (продолжение)_________________________________________________________
Ш а г 2. Формулировка статистической гипотезы. Проверим Н0: с = Ь (ненаправленная гипотеза), при а = 0,05. Отметим, что проверка гипотезы относительно других диагональных элементов (Н0: а = с0 в данном случае не имеет смысла. Ш а г 3. Вычисление эмпирического значения критерия. с-Ь 26-10 Ъ =, =, = 2,67. л]с + Ь V 26 + 10 Ш а г 4. Определение р-уровня (приложение 1). Воспользуемся таблицей единичного нормального распределения: а) находим в таблице теоретическое значение г, ближайшее меньшее к абсолютному (без учета знака) эмпирическому значению гэ: гт = 2,65; б) определяем площадь под кривой справа от V- Р= 0,004; в) вычисляем р-уровень по формулер<2Р:р< 0,008. Ш а г 5. Принятие статистического решения и статистический вывод. На уровне а = 0,05 гипотеза Н0 отклоняется. Содержательный вывод: доля лиц, выступающих против смертной казни после лекции статистически значимо увеличилась (г= 2,67; р < 0,008). Что будет с Землей, если ось ее сместится на 6666 км? Что будет с Землей? - задался я вопросом... Что делать, если нет взаимности? А теперь спустимся с небес на землю. Приземлились? Продолжаем разговор... ЧТО ПРОИСХОДИТ ВО ВЗРОСЛОЙ ЖИЗНИ? Если вы все еще «неправильно» связаны с матерью, вы избегаете отделения и независимого взрослого существования... Система охраняемых территорий в США Изучение особо охраняемых природных территорий(ООПТ) США представляет особый интерес по многим причинам... Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:
|