Выполнение в пакете STATISTICA

Выполнить проверку гипотезы самостоятельно. Воспользоваться операциями со столбцами или процедурой Observed versus expected (наблюдаемые частоты против ожидаемых).

5. Проверка гипотезы о независимости признаков (таблица сопряженности признаков)

Предположим, имеется большая совокупность объектов, каждый из которых обладает двумя признаками А и В; признак А имеет m уровней: A ₁,..., A_m, а признак В – k уровней: B ₁,..., B_k. Пусть уровень А_i встречается с вероятностью P (A_i),а уровень B_j - c вероятностью P (B_j). Признаки А и В независимы, если

т.е. вероятность встретить комбинацию A_i B_j равна произведению вероятностей. Пусть признаки определены на n объектах, случайно извлеченных из совокупности; n_ij - число объектов, имеющих комбинацию A_i B_j,

. По совокупности наблюдений {n _ij } (таблица m ´ k) требуется проверить гипотезу Н о независимости признаков А и В. Задача сводится к случаю с неизвестными параметрами; ими являются вероятности

(в обозначениях точка означает суммирование по соответствующему индексу), и статистика (7.6) принимает вид

Если гипотеза Н верна, то по теореме Фишера

асимптотически распределена по закону хи-квадрат с числом степеней свободы

то гипотезу о независимости признаков следует отклонить.

Ясно, что по (7.11) - (7.12) можно проверять независимость двух случайных величин, разбив диапазоны их значений на m и k частей.

Пример 7.4. Данные, собранные по ряду школ, относительно физических недостатков школьников (P ₁, P ₂, P ₃ - признак А) и дефектов речи (S ₁, S ₂, S ₃- признак В) приведены в табл. 7.4. В табл. 7.5 даны частоты.

Для проверки гипотезы о независимости этих двух признаков вычислим статистику (7.11):

= 34,88; число степеней свободы f = (3-1) ´ (3-1) = 4; минимальный уровень значимости

Это значит, что при независимых признаках вероятность получить значение такое же, как в опыте или большее, меньше 0,001, и потому гипотезу о независимости следует отклонить.

Образуем таблицу с двумя столбцами (P и S) и 217 строками и назовем ее Defects.sta (это действие опускаем, если данные уже есть в компьютере). Работаем в модуле Basic Statistics and Tables:

Analysis ® Tables and banners - в окне Specify Table, в поле Analysis: Crosstabulation tables кнопка Specify Table - отбираем признаки: list 1: P, list 2: S - OK - OK - в окне Crosstabulation Tables Results (результаты таблиц сопряженности) отмечаем (потребуем определить) Expected frequencies (ожидаемые или теоретические частоты) и Pearson Chi-Square ® Review Summary tables.

Наблюдаем две таблицы: таблицу частот Summary Frequency Table и Expected Frequencies; в верхней части последней указано значение Chi-square статистики (7.11), число степеней свободы df и уровень значимости р (вероятность в (7.12)). Поскольку значение р мало, гипотеза о независимости речевых и физических дефектов отклоняется.

Замечание 1. Если бы исходные признаки Х, Y,... были не символьными, а числовыми, нужно было бы сначала их классифицировать: разбить диапазон значений на части, и для каждой ввести свой символ (например, х ₁, х ₂,..., y ₁, y ₂,...) введением дополнительных столбцов и использованием операции Recode ... (кнопка Vars или Edit ® Variables).

Замечание 2. Если бы исходными данными являлась таблица частот, то анализ можно было провести в модуле Log - Linear Analysis (как в п.6).

ЧТО И КАК ПИСАЛИ О МОДЕ В ЖУРНАЛАХ НАЧАЛА XX ВЕКА Первый номер журнала «Аполлон» за 1909 г. начинался, по сути, с программного заявления редакции журнала...

ЧТО ПРОИСХОДИТ ВО ВЗРОСЛОЙ ЖИЗНИ? Если вы все еще «неправильно» связаны с матерью, вы избегаете отделения и независимого взрослого существования...

Живите по правилу: МАЛО ЛИ ЧТО НА СВЕТЕ СУЩЕСТВУЕТ? Я неслучайно подчеркиваю, что место в голове ограничено, а информации вокруг много, и что ваше право...

Что делает отдел по эксплуатации и сопровождению ИС? Отвечает за сохранность данных (расписания копирования, копирование и пр.)...

Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте: