Сдам Сам

ПОЛЕЗНОЕ


КАТЕГОРИИ







АНАЛИЗ КОРРЕЛЯЦИОННЫХ МАТРИЦ





Корреляционная матрица. Часто корреляционный анализ включает в себя изучение связей не двух, а множества переменных, измеренных в количествен­ной шкале на одной выборке. В этом случае вычисляются корреляции для каждой пары из этого множества переменных. Вычисления обычно прово­дятся на компьютере, а результатом является корреляционная матрица.

Корреляционная матрица (СоггеШ'юп Ма1пх) — это результат вычисления корреляций одного типа для каждой пары из множества Р переменных, изме­ренных в количественной шкале на одной выборке.

ПРИМЕР_________________________________________________________________________

Предположим, изучаются связи между 5 переменными (у1, у2,..., у5; Р= 5), изме­ренными на выборке численностью N=: 30 человек. Ниже приведена таблица ис­ходных данных и корреляционная матрица. Исходные данные: Корреляционная матрица:

Корреляционная матрица является квадратной: число строк и столбцов равно числу переменных. Она симметрична относительно главной диагона­ли, так как корреляция хс у равна корреляции у с х. На ее главной диагонали располагаются единицы, так как корреляция признака с самим собой равна единице. Следовательно, анализу подлежат не все элементы корреляцион­ной матрицы, а те, которые находятся выше или ниже главной диагонали.

Количество коэффициентов корреляции, подлежащих анализу при изучении связей ^признаков определяется формулой: Р(Р-1)/2. В приведенном выше примере количество таких коэффициентов корреляции 5(5 — 1)/2 = 10.

Основная задача анализа корреляционной матрицы — выявление структуры взаимосвязей множества признаков. При этом возможен визуальный анализ корреляционных плеяд — графического изображения структуры статистически значимых связей, если таких связей не очень много (до 10—15). Другой спо­соб — применение многомерных методов: множественного регрессионного, факторного или кластерного анализа (см. раздел «Многомерные методы...»). Применяя факторный или кластерный анализ, можно выделить группиров­ки переменных, которые теснее связаны друг с другом, чем с другими пере­менными. Весьма эффективно и сочетание этих методов, например, если признаков много и они не однородны.

Сравнение корреляций — дополнительная задача анализа корреляционной матрицы, имеющая два варианта. Если необходимо сравнение корреляций в одной из строк корреляционной матрицы (для одной из переменных), при­меняется метод сравнения для зависимых выборок (с. 148—149). При сравне­нии одноименных корреляций, вычисленных для разных выборок, применя­ется метод сравнения для независимых выборок (с. 147—148).

Методы сравнения корреляций в диагоналях корреляционной матрицы (для оценки стационарности случайного процесса) и сравнения нескольких корре­ляционных матриц, полученных для разных выборок (на предмет их одно­родности), являются трудоемкими и выходят за рамки данной книги. Позна­комиться с этими методами можно по книге Г. В. Суходольского[14].

Проблема статистической значимости корреляций. Проблема заключается в том, что процедура статистической проверки гипотезы предполагает одно­кратное испытание, проведенное на одной выборке. Если один и тот же метод применяется многократно, пусть даже и в отношении различных переменных, то увеличивается вероятность получить результат чисто слу­чайно. В общем случае, если мы повторяем один и тот же метод проверки гипотезы к раз в отношении разных переменных или выборок, то при уста­новленной величине а мы гарантированно получим подтверждение гипоте­зы в ахк числе случаев.

Предположим, анализируется корреляционная матрица для 15 переменных, то есть вычислено 15(15—1)/2 = 105 коэффициентов корреляции. Для проверки гипотез установлен уровень а = 0,05. Проверяя гипотезу 105 раз, мы пять раз (!) получим ее подтверждение независимо оттого, существует ли связь на самом деле. Зная это и получив, скажем, 15 «статистически достоверных» коэффициентов корреляции, сможем ли мы сказать, какие из них получены случайно, а какие — отражают ре­альную связь?

Строго говоря, для принятия статистического решения необходимо умень­шить уровень а во столько раз, сколько гипотез проверяется. Но вряд ли это целесообразно, так как непредсказуемым образом увеличивается вероятность проигнорировать реально существующую связь (допустить ошибку II рода).

Одна только корреляционная матрица не является достаточным основанием для статистических выводов относительно входящих в нее отдельных коэффи­циентов корреляций!

Можно указать лишь один действительно убедительный способ решения этой проблемы: разделить выборку случайным образом на две части и прини­мать во внимание только те корреляции, которые статистически значимы в обеих частях выборки. Альтернативой может являться использование много­мерных методов (факторного, кластерного или множественного регрессион­ного анализа) — для выделения и последующей интерпретации групп статис­тически значимо связанных переменных.

Проблема пропущенных значений. Если в данных есть пропущенные значе­ния, то возможны два варианта расчета корреляционной матрицы: а) построч­ное удаление значений (Ехс1иёе сазез НзМве); б) попарное удаление значений (Ехс1и<1е савев ра1т8е). При построчном удалении наблюдений с пропусками удаляется вся строка для объекта (испытуемого), который имеет хотя бы одно пропущенное значение по одной из переменных. Этот способ приводит к «пра­вильной» корреляционной матрице в том смысле, что все коэффициенты вы­числены по одному и тому же множеству объектов. Однако если пропущенные значения распределены случайным образом в переменных, то данный метод может привести к тому, что в рассматриваемом множестве данных не останется ни одного объекта (в каждой строке встретится, по крайней мере, одно пропу­щенное значение). Чтобы избежать подобной ситуации, используют другой способ, называемый попарным удалением. В этом способе учитываются только пропуски в каждой выбранной паре столбцов-переменных и игнорируются пропуски в других переменных. Корреляция для пары переменных вычисляет­ся по тем объектам, где нет пропусков. Во многих ситуациях, особенно когда число пропусков относительно мало, скажем 10%, и пропуски распределены достаточно хаотично, этот метод не приводит к серьезным ошибкам. Однако иногда это не так. Например, в систематическом смещении (сдвиге) оценки может «скрываться» систематическое расположение пропусков, являющееся причиной различия коэффициентов корреляции, построенных по разным под­множествам (например — для разных подгрупп объектов). Другая проблема, связанная с корреляционной матрицей, вычисленной при попарном удалении пропусков, возникает при использовании этой матрицы в других видах анали­за (например, в множественном регрессионном или факторном анализе). В них предполагается, что используется «правильная» корреляционная матрица с определенным уровнем состоятельности и «соответствия» различных коэффи­циентов. Использование матрицы с «плохими» (смещенными) оценками при­
водит к тому, что программа либо не в состоянии анализировать такую матри­цу, либо результаты будут ошибочными. Поэтому, если применяется попарный метод исключения пропущенных данных, необходимо проверить, имеются или нет систематические закономерности в распределении пропусков.

Если попарное исключение пропущенных данных не приводит к какому- либо систематическому сдвигу средних значений и дисперсий (стандартных отклонений), то эти статистики будут похожи на аналогичные показатели, вы­численные при построчном способе удаления пропусков. Если наблюдается значительное различие, то есть основание предполагать наличие сдвига в оцен­ках. Например, если среднее (или стандартное отклонение) значений перемен­ной А, которое использовалось при вычислении ее корреляции с переменной В, намного меньше среднего (или стандартного отклонения) тех же значений переменной А, которые использовались при вычислении ее корреляции с пе­ременной С, то имеются все основания ожидать, что эти две корреляции {А—В и /4-0 основаны на разных подмножествах данных. В корреляциях будет сдвиг, вызванный неслучайным расположением пропусков в значениях переменных.

Анализ корреляционных плеяд. После решения проблемы статистической зна­чимости элементов корреляционной матрицы статистически значимые корре­ляции можно представить графически в виде корреляционной плеяды или пле­яд. Корреляционная плеяда — это фигура, состоящая из вершин и соединяющих их линий. Вершины соответствуют признакам и обозначаются обычно цифра­ми — номерами переменных. Линии соответствуют статистически достоверным связям и графически выражают знак, а иногда — и р-уровень значимости связи.

Корреляционная плеяда может отра­жать все статистически значимые связи корреляционной матрицы (иногда называ­ется корреляционным графом) или только их содержательно выделенную часть (напри­мер, соответствующую одному фактору по результатам факторного анализа).

Корреляционный граф и его родственные связи, достоверность которых была установлена в судеб­ном порядке

ПРИМЕР ПОСТРОЕНИЯ КОРРЕЛЯЦИОННОЙ ПЛЕЯДЫ

Корреляционная матрица:

  VI м2 УЗ у4 у5
VI   г 0,5-2 -0,11 -0.29 -0,38
У2 0,52   0,28 0,32 -0,34
УЗ -0,11 0,28   0,48 0,42
у4 -0,29 0,32 0,48   0,38
у5 -0,38 -0,34 0,42 0,38  

2 12 2 3

 

Корреляционная плеяда:

 

Построение корреляционной плеяды начинают с выделения в корреляци­онной матрице статистически значимых корреляций (иногда — разным цве­том в зависимости от р-уровня значимости). Затем для строк (столбцов) мат­рицы, содержащих статистически значимые корреляции, подсчитывается их количество. Построение плеяды начинают с переменной, имеющей наиболь­шее число значимых связей, постепенно добавляя в рисунок другие перемен­ные — по мере убывания числа связей и связывая их линиями, соответствую­щими связям между ними.

ОБРАБОТКА НА КОМПЬЮТЕРЕ

Графики двумерного рассеивания. Выбираем СгарЬз... > 8саМег...-8нпр1е. Нажимаем ОеПпе. В появляющемся окне назначаем осям переменные: выде­ляем слева одну переменную, нажимаем > напротив «X Ах1§» (Ось X), выделя­ем другую переменную, нажимаем > напротив «У Ах1§». Нажимаем ОК. Полу­чаем график рассеивания назначенных переменных.

Вычисление симметричной корреляционной матрицы. (По умолчанию 5Р88 вычисляет полную корреляционную матрицу.)

Выбираем Апа1уге > СоггеЫе > В|уапа*е... В открывшемся окне диалога выделяем интересующие переменные в левой части и переносим их в правую часть при помощи кнопки > (переменных должно быть как минимум две).

По умолчанию стоит флажок Реагвоп (корреляция /--Пирсона). Если инте­ресует корреляция г-Спирмена или х-Кендалла, необходимо поставить соот­ветствующие флажки внизу.

Если в данных есть пропуски, то по умолчанию программа учтет их путем попарного удаления (ехс1ис!е сазез ра1пу|$е). Если необходимо учесть их путем построчного удаления (объектов с пропусками), то нажимаем Ор*10п§... > (ЕхсМе са§е§ Н§Ы§е) > Сопйпие...


Нажимаем ОК. В появившейся таблице строки и столбцы соответствуют выделенным ранее переменным. В ячейке на пересечении строки и столбца, соответствующих интересующим нас переменным, видим три числа: верхнее соответствует коэффициенту корреляции, нижнее — численности выборки ДО, среднее — /^-уровню значимости для ненаправленных альтернатив (Зщ. (2-ЫМ)).

Вычисление несимметричной корреляционной матрицы. Если есть необходи­мость вычислить корреляции не всех, а только двух групп переменных, то не­обходимо создание командного файла (ЗуЩах). Например, есть 5 перемен­ных с именами: VI, у2, уЗ, у4, у5. Задача — вычислить корреляции у1 с остальными переменными из этого набора, обрабатывая пропуски путем по­парного удаления.

□ Выбираем РНе > > 8уп1ах. В открывшемся окне набираем текст: согге1аЬ1опз Vа^^аЫез VI М1Ы1 V2 V3 V4. (Количество переменных до и после слова тЫл — не ограничено).

□ Если необходима обработка пропусков путем построчного удаления, то: согге1аЬ1оп5 Vа^^аЫе8 VI ч2 чЪ V4 V5

/пйззз-пд Из^мхзе.

□ Если надо вычислить корреляцию г-Спирмена (с попарным удалени­ем), то:

попраг согг VI м 11:11 V2 V3 V4 V5.

□ Для вычисления корреляций т-Кендалла добавляем к первой — вторую строку:

попраг согг VI и 11:11 V2 V3 V4 V5 /рг1п1: кепйа11.

□ Для вычисления и г-Спирмена, и т-Кендалла с построчным удалением:

попраг согг VI иК:11 V2 V3 V4 V5 /пиззз-пд ИзЬм1зе /рг1П(: ЬоЫг.

Заметьте, что вся команда обязательно должна заканчиваться точкой.

Для выполнения команды нажимаем Кип > АН. Программа выдаст резуль­тат — таблицу корреляций переменных. Строки будут соответствовать име­нам переменных, указанных в команде до слова а столбцы — именам переменных, указанных после слова М1Ы1.

Вычисление частной корреляции. Выбираем Апа!уге > СоггеЫе > Раг11а1... В открывшемся окне диалога переносим интересующие переменные из ле­вой части в правую верхнюю (УапаЫез:) при помощи верхней кнопки > (пе­ременных должно быть как минимум две). Затем при помощи нижней кноп­ки > из правой части в левую нижнюю часть (Соп1го1Пп§ Гог:) переносим переменную, значения которой хотим фиксировать. Нажимаем ОК. Полу­чаем таблицу, аналогичную таблице парных корреляций, но верхнее число в каждой ячейке — значение частной корреляции соответствующих двух пе­ременных при фиксированном значении указанной третьей переменной. Нижнее число — /ьуровень значимости, а посередине — число степеней свободы.


Глава 11







Что вызывает тренды на фондовых и товарных рынках Объяснение теории грузового поезда Первые 17 лет моих рыночных исследований сводились к попыткам вычис­лить, когда этот...

ЧТО ТАКОЕ УВЕРЕННОЕ ПОВЕДЕНИЕ В МЕЖЛИЧНОСТНЫХ ОТНОШЕНИЯХ? Исторически существует три основных модели различий, существующих между...

Система охраняемых территорий в США Изучение особо охраняемых природных территорий(ООПТ) США представляет особый интерес по многим причинам...

Что будет с Землей, если ось ее сместится на 6666 км? Что будет с Землей? - задался я вопросом...





Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:


©2015- 2024 zdamsam.ru Размещенные материалы защищены законодательством РФ.