Сдам Сам

ПОЛЕЗНОЕ


КАТЕГОРИИ







КОРРЕЛЯЦИЯ, РЕГРЕССИЯ И КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ





Корреляция Пирсона есть мера линейной связи между двумя переменны­ми. Она позволяет определить, насколько пропорциональна изменчивость двух переменных. Если переменные пропорциональны друг другу, то графи­чески связь между ними можно представить в виде прямой линии с положи­тельным (прямая пропорция) или отрицательным (обратная пропорция) на­клоном. Кроме того, если известна пропорция между переменными, заданная уравнением графика прямой линии:

у,= Ьх1 + а,

то по известным значениям переменной А'можно точно предсказать значения переменной У.

На практике связь между двумя переменными, если она есть, является ве­роятностной и графически выглядит как облако рассеивания эллипсоидной формы. Этот эллипсоид, однако, можно представить (аппроксимировать) в виде прямой линии, или линии регрессии. Линия регрессии (Ке$гетоп Ыпе) — это прямая, построенная методом наименьших квадратов: сумма квадратов расстояний (вычисленных по оси У) от каждой точки графика рассеивания до прямой является минимальной:

/ <

где у,- — истинное /-значение У, у{ — оценка /-значения Упри помощи линии (уравнения) регрессии, е, = у,— у,- — ошибка оценки (см. рис. 6.4). Уравнение регрессии имеет вид:

У1=Ьх1 + а, (6.2)

где Ь — коэффициент регрессии (Ке&гезз'юп Сое#1с1еп1), задающий угол наклона прямой; а — свободный член, определяющий точку пересечения прямой оси У.

Если известны средние, стандартные отклонения и корреляция гху, то сум­ма квадратов ошибок минимальна, если:

ст

Ь = г*у~Г' а = Му~ЬМх. (6.3)

Таким образом, если на некоторой выборке измерены две переменные, которые коррелируют друг с другом, то, вычислив коэффициенты регрессии,

Рис. 6.4. Диаграмма рассеивания и линия регрессии (е, — ошибка оценки для одного из объектов)
3,5 у>— 3,0 2,5 2,0 1,5

5,5 5,0 4,5
мы получаем принципиальную возможность предсказания неизвестных зна­чений одной переменной (У— «зависимая переменная») по известным значе­ниям другой переменной (X — «независимая переменная»). Например, пред­сказываемой «зависимой переменной» может быть успешность обучения, а предиктором, «независимой переменной» — результаты вступительного теста.

С какой степенью точности возможно такое предсказание?

Понятно, что наиболее точным предсказание будет, если \гху\ = 1. Тогда каж­дому значению Сбудет соответствовать только одно значение У, а все ошибки оценки будут равны 0 (все точки на графике рассеивания будут лежать на пря­мой регрессии). Если же гху = 0, то Ь - 0 и у, = Му, т. е. при любом Xоценка переменной Кбудет равна ее среднему значению и предсказательная ценность регрессии ничтожна.

Особое значение для оценки точности предсказания имеет дисперсия оце­нок зависимой переменной. Отметим, что дисперсия оценок равна нулю, если гху = 0 — все оценки равны среднему значению, прямая регрессии параллель­на оси X. А если \гху\ = 1, то дисперсия оценок равна истинной дисперсии пе­ременной У, достигая своего максимума:

0<а?<а2.

По сути, дисперсия оценок зависимой переменной У— это та часть ее пол­ной дисперсии, которая обусловлена влиянием независимой переменной X.

Неизвестную дисперсию оценок К можно выразить через другие, извест­ные статистики, зная рассмотренные ранее свойства дисперсии:

_2 _2 д2_2

=аЬх,+а=аЬх, = Ь ах,,

так как прибавление константы а к каждому значению переменной не меняет дисперсию, а умножение на константу Ь — увеличивает дисперсию в Ь2 раз. Подставляя в формулу выражение для Ъ из (6.2) получаем:

2 _ 2 У/ 2 _ 2 2 °у, - Гху~Тах, - гхуау,, ИЛИ

(6.4)

У1

Иначе говоря, отношение дисперсии оценок зависимой переменной к ее ис­тинной дисперсии равно квадрату коэффициента корреляции.

Выражение (6.4) дает еще один вариант интерпретации корреляции. Квад­рат коэффициента корреляции (К. §яиаге) зависимой и независимой перемен­ных представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерми­нации. Коэффициент детерминации гху, таким образом, показывает, в какой сте­пени изменчивость одной переменной обусловлена (детерминирована) вли­янием другой переменной.

ПРИМЕР________________________________________________________________________

В большинстве исследований взаимосвязи 10 и успеваемости в школе корреляции этих показателей не превышают 0,5—0,7, т. е. коэффициент детерминации достигает величин 0,25—0,49. Иными словами, индивидуальная изменчивость (дисперсия) сред­него балла успеваемости может быть предсказана по результатам тестирования 10 не более чем на 25—49%. Означает ли это, что успешность обучения не более чем на 25—49% зависит от интеллекта? Ответ зависит от того, в какой мере средний балл отметок отражает успешность обучения, а тест 10 — интеллектуальные способности учащегося. Во всяком случае, этот пример демонстрирует явно не высокую эффек­тивность двумерной регрессии в деле практического предсказания[6].

Коэффициент детерминации обладает важным преимуществом по сравне­нию с коэффициентом корреляции. Корреляция не является линейной функци­ей связи между двумя переменными. Поэтому, в частности, среднее арифмети­ческое коэффициентов корреляции для нескольких выборок не совпадает с корреляцией, вычисленной сразу для всех испытуемых из этих выборок (т. е. коэффициент корреляции не аддитивен). Напротив, коэффициент детерми­нации отражает связь линейно и поэтому является аддитивным: допускается его усреднение для нескольких выборок.

Дополнительную информацию о силе связи дает значение коэффициента корреляции в квадрате — коэффициент детерминации г2: это часть диспер­сии одной переменной, которая может быть объяснена влиянием другой пе­ременной. В отличие от коэффициента корреляции г2 линейно возрастает с увеличением силы связи. На этом основании можно ввести три градации ве­личин корреляции по силе связи:

г< 0,3 — слабая связь (менее 10% от общей доли дисперсии);

0,3 < г < 0,7 — умеренная связь (от 10 до 50% от общей доли дисперсии);

г > 0,7 — сильная связь (50% и более от общей доли дисперсии).

ЧАСТНАЯ КОРРЕЛЯЦИЯ

Очень часто две переменные коррелируют друг с другом только за счет того, что обе они согласованно меняются под влиянием некоторой третьей пере­менной. Иными словами, на самом деле связь между соответствующими свой­ствами отсутствует, но проявляется в статистической взаимосвязи (корреля­ции) под влиянием общей причины.

ПРИМЕР_________________________________________________________________________

Общей причиной изменчивости двух переменных («третьей переменной») можетяв- ляться возраст при изучении взаимосвязи различных психологических особеннос­тей в группе детей разного возраста. Предположим, что изучается взаимосвязь меж­ду зрелостью моральных суждений — Хи скоростью чтения — У. Но в распоряжении
исследователя имеется лишь выборка из 45 детей разного возраста — от 8 до 14 лет (переменная 2— возраст). Если будет получена существенная положительная корре­ляция между Хи У, например гц. = 0,54, то о чем это будет свидетельствовать? Осто­рожный исследователь вряд ли сделает однозначный вывод о том, что зрелость мо­ральных суждений непосредственно связана со скоростью чтения. Скорее всего, дело втом, что и зрелость моральных суждений, и скорость чтения повышаются с возрас­том. Иными словами, возраст является причиной согласованной (прямо пропорци­ональной) изменчивости и зрелости моральных суждений, и скорости чтения.

Для численного определения степени взаимосвязи двух переменных при усло­вии исключения влияния третьей применяют коэффициент частной корреляции (РагИа1 СогггШ'юп). Для вычисления частной корреляции достаточно знать три коэффициента корреляции /--Пирсона между переменными X, У и У-(гху, гх, и гУ1)\


г — г г 'ху 'хг'уг
г 'ху-г.
(6.5)
7(1-/■«)(!-/-Д)

 

 


где /-ху_, — частная корреляция Хи У при постоянном 2(или с учетом 2).

Частная корреляция гху^ равна г^, при любом фиксированном значении 2 (в том случае, если ^линейно коррелирует с Хи У). Например, если значение частной корреляции скорости чтения Xи зрелости моральных суждений Ус учетом зозраста 2Гравно 0,2 (гху_г — 0,2) и возраст линейно коррелирует и с Хи с У, то с любой группе детей одного и того же возраста /убудет тоже равно 0,2.

ПРИМЕР 6,3______________________________________________________________________

Один исследователь решил сопоставить антропометрические и психологические данные исследования довольно большой группы детей. Каково же было его изум­ление, когда обнаружилась существенная положительная корреляция между скоро­стью решения арифметических задач и размером стопы: гху = 0,42. Оказалось, однако, что дети были разного возраста. Корреляция размера стопы с возрастом составила гху= 0,7, а корреляция скорос­ти решения арифметических задач с возрастом гуг = 0,6. Эти данные позволяют выяснить, взаимосвязаны ли размер стопы и скорость решения арифметических задач с учетом возраста (при условии, что возраст остается неизменным). Для этого необходимо вычислить частный коэффициент корреляции между размером стопы Хи скоростью решения арифметических задач У(при фиксированном возрасте 2):

0,42-0,7-0,6

■ = 0

0,72)(1 -0,62)

Таким образом, размер стопы и скорость решения арифметических задач корре­лируют исключительно за счет согласованности возрастной изменчивости этих показателей: частная корреляция между ними (с учетом возраста) равна нулю. И ес­ли мы возьмем группу детей одного и того же возраста, то корреляция размера сто­пы и скорости решения арифметических задач будет равна нулю.


Следует быть особенно осторожным, пытаясь дать интерпретацию част­ной корреляции с позиций причинности. Например, если ^коррелирует и с Хи с У, а частная корреляция гху_, близка к нулю, из этого не обязательно следует, что именно ^является общей причиной для Хи V.

РАНГОВЫЕ КОРРЕЛЯЦИИ

Если обе переменные, между которыми изучается связь, представлены в порядковой шкале, или одна из них — в порядковой, а другая — в метричес­кой, то применяются ранговые коэффициенты корреляции: /--Спирмена или х-Кенделла. И тот, и другой коэффициент требует для своего применения предварительного ранжирования обеих переменных.







ЧТО И КАК ПИСАЛИ О МОДЕ В ЖУРНАЛАХ НАЧАЛА XX ВЕКА Первый номер журнала «Аполлон» за 1909 г. начинался, по сути, с программного заявления редакции журнала...

Конфликты в семейной жизни. Как это изменить? Редкий брак и взаимоотношения существуют без конфликтов и напряженности. Через это проходят все...

Что вызывает тренды на фондовых и товарных рынках Объяснение теории грузового поезда Первые 17 лет моих рыночных исследований сводились к попыткам вычис­лить, когда этот...

Что делает отдел по эксплуатации и сопровождению ИС? Отвечает за сохранность данных (расписания копирования, копирование и пр.)...





Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:


©2015- 2024 zdamsam.ru Размещенные материалы защищены законодательством РФ.