|
КОРРЕЛЯЦИЯ, РЕГРЕССИЯ И КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИКорреляция Пирсона есть мера линейной связи между двумя переменными. Она позволяет определить, насколько пропорциональна изменчивость двух переменных. Если переменные пропорциональны друг другу, то графически связь между ними можно представить в виде прямой линии с положительным (прямая пропорция) или отрицательным (обратная пропорция) наклоном. Кроме того, если известна пропорция между переменными, заданная уравнением графика прямой линии: у,= Ьх1 + а, то по известным значениям переменной А'можно точно предсказать значения переменной У. На практике связь между двумя переменными, если она есть, является вероятностной и графически выглядит как облако рассеивания эллипсоидной формы. Этот эллипсоид, однако, можно представить (аппроксимировать) в виде прямой линии, или линии регрессии. Линия регрессии (Ке$гетоп Ыпе) — это прямая, построенная методом наименьших квадратов: сумма квадратов расстояний (вычисленных по оси У) от каждой точки графика рассеивания до прямой является минимальной: / < где у,- — истинное /-значение У, у{ — оценка /-значения Упри помощи линии (уравнения) регрессии, е, = у,— у,- — ошибка оценки (см. рис. 6.4). Уравнение регрессии имеет вид: У1=Ьх1 + а, (6.2) где Ь — коэффициент регрессии (Ке&гезз'юп Сое#1с1еп1), задающий угол наклона прямой; а — свободный член, определяющий точку пересечения прямой оси У. Если известны средние, стандартные отклонения и корреляция гху, то сумма квадратов ошибок минимальна, если: ст Ь = г*у~Г' а = Му~ЬМх. (6.3) Таким образом, если на некоторой выборке измерены две переменные, которые коррелируют друг с другом, то, вычислив коэффициенты регрессии,
5,5 5,0 4,5 С какой степенью точности возможно такое предсказание? Понятно, что наиболее точным предсказание будет, если \гху\ = 1. Тогда каждому значению Сбудет соответствовать только одно значение У, а все ошибки оценки будут равны 0 (все точки на графике рассеивания будут лежать на прямой регрессии). Если же гху = 0, то Ь - 0 и у, = Му, т. е. при любом Xоценка переменной Кбудет равна ее среднему значению и предсказательная ценность регрессии ничтожна. Особое значение для оценки точности предсказания имеет дисперсия оценок зависимой переменной. Отметим, что дисперсия оценок равна нулю, если гху = 0 — все оценки равны среднему значению, прямая регрессии параллельна оси X. А если \гху\ = 1, то дисперсия оценок равна истинной дисперсии переменной У, достигая своего максимума: 0<а?<а2. По сути, дисперсия оценок зависимой переменной У— это та часть ее полной дисперсии, которая обусловлена влиянием независимой переменной X. Неизвестную дисперсию оценок К можно выразить через другие, известные статистики, зная рассмотренные ранее свойства дисперсии: _2 _2 д2_2 =аЬх,+а=аЬх, = Ь ах,, так как прибавление константы а к каждому значению переменной не меняет дисперсию, а умножение на константу Ь — увеличивает дисперсию в Ь2 раз. Подставляя в формулу выражение для Ъ из (6.2) получаем: 2 _ 2 У/ 2 _ 2 2 °у, - Гху~Тах, - гхуау,, ИЛИ (6.4) У1 Иначе говоря, отношение дисперсии оценок зависимой переменной к ее истинной дисперсии равно квадрату коэффициента корреляции. Выражение (6.4) дает еще один вариант интерпретации корреляции. Квадрат коэффициента корреляции (К. §яиаге) зависимой и независимой переменных представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерминации. Коэффициент детерминации гху, таким образом, показывает, в какой степени изменчивость одной переменной обусловлена (детерминирована) влиянием другой переменной. ПРИМЕР________________________________________________________________________ В большинстве исследований взаимосвязи 10 и успеваемости в школе корреляции этих показателей не превышают 0,5—0,7, т. е. коэффициент детерминации достигает величин 0,25—0,49. Иными словами, индивидуальная изменчивость (дисперсия) среднего балла успеваемости может быть предсказана по результатам тестирования 10 не более чем на 25—49%. Означает ли это, что успешность обучения не более чем на 25—49% зависит от интеллекта? Ответ зависит от того, в какой мере средний балл отметок отражает успешность обучения, а тест 10 — интеллектуальные способности учащегося. Во всяком случае, этот пример демонстрирует явно не высокую эффективность двумерной регрессии в деле практического предсказания[6]. Коэффициент детерминации обладает важным преимуществом по сравнению с коэффициентом корреляции. Корреляция не является линейной функцией связи между двумя переменными. Поэтому, в частности, среднее арифметическое коэффициентов корреляции для нескольких выборок не совпадает с корреляцией, вычисленной сразу для всех испытуемых из этих выборок (т. е. коэффициент корреляции не аддитивен). Напротив, коэффициент детерминации отражает связь линейно и поэтому является аддитивным: допускается его усреднение для нескольких выборок. Дополнительную информацию о силе связи дает значение коэффициента корреляции в квадрате — коэффициент детерминации г2: это часть дисперсии одной переменной, которая может быть объяснена влиянием другой переменной. В отличие от коэффициента корреляции г2 линейно возрастает с увеличением силы связи. На этом основании можно ввести три градации величин корреляции по силе связи: г< 0,3 — слабая связь (менее 10% от общей доли дисперсии); 0,3 < г < 0,7 — умеренная связь (от 10 до 50% от общей доли дисперсии); г > 0,7 — сильная связь (50% и более от общей доли дисперсии). ЧАСТНАЯ КОРРЕЛЯЦИЯ Очень часто две переменные коррелируют друг с другом только за счет того, что обе они согласованно меняются под влиянием некоторой третьей переменной. Иными словами, на самом деле связь между соответствующими свойствами отсутствует, но проявляется в статистической взаимосвязи (корреляции) под влиянием общей причины. ПРИМЕР_________________________________________________________________________ Общей причиной изменчивости двух переменных («третьей переменной») можетяв- ляться возраст при изучении взаимосвязи различных психологических особенностей в группе детей разного возраста. Предположим, что изучается взаимосвязь между зрелостью моральных суждений — Хи скоростью чтения — У. Но в распоряжении Для численного определения степени взаимосвязи двух переменных при условии исключения влияния третьей применяют коэффициент частной корреляции (РагИа1 СогггШ'юп). Для вычисления частной корреляции достаточно знать три коэффициента корреляции /--Пирсона между переменными X, У и У-(гху, гх, и гУ1)\
где /-ху_, — частная корреляция Хи У при постоянном 2(или с учетом 2). Частная корреляция гху^ равна г^, при любом фиксированном значении 2 (в том случае, если ^линейно коррелирует с Хи У). Например, если значение частной корреляции скорости чтения Xи зрелости моральных суждений Ус учетом зозраста 2Гравно 0,2 (гху_г — 0,2) и возраст линейно коррелирует и с Хи с У, то с любой группе детей одного и того же возраста /убудет тоже равно 0,2. ПРИМЕР 6,3______________________________________________________________________ Один исследователь решил сопоставить антропометрические и психологические данные исследования довольно большой группы детей. Каково же было его изумление, когда обнаружилась существенная положительная корреляция между скоростью решения арифметических задач и размером стопы: гху = 0,42. Оказалось, однако, что дети были разного возраста. Корреляция размера стопы с возрастом составила гху= 0,7, а корреляция скорости решения арифметических задач с возрастом гуг = 0,6. Эти данные позволяют выяснить, взаимосвязаны ли размер стопы и скорость решения арифметических задач с учетом возраста (при условии, что возраст остается неизменным). Для этого необходимо вычислить частный коэффициент корреляции между размером стопы Хи скоростью решения арифметических задач У(при фиксированном возрасте 2): 0,42-0,7-0,6 ■ = 0 0,72)(1 -0,62) Таким образом, размер стопы и скорость решения арифметических задач коррелируют исключительно за счет согласованности возрастной изменчивости этих показателей: частная корреляция между ними (с учетом возраста) равна нулю. И если мы возьмем группу детей одного и того же возраста, то корреляция размера стопы и скорости решения арифметических задач будет равна нулю. Следует быть особенно осторожным, пытаясь дать интерпретацию частной корреляции с позиций причинности. Например, если ^коррелирует и с Хи с У, а частная корреляция гху_, близка к нулю, из этого не обязательно следует, что именно ^является общей причиной для Хи V. РАНГОВЫЕ КОРРЕЛЯЦИИ Если обе переменные, между которыми изучается связь, представлены в порядковой шкале, или одна из них — в порядковой, а другая — в метрической, то применяются ранговые коэффициенты корреляции: /--Спирмена или х-Кенделла. И тот, и другой коэффициент требует для своего применения предварительного ранжирования обеих переменных. Что будет с Землей, если ось ее сместится на 6666 км? Что будет с Землей? - задался я вопросом... Что делает отдел по эксплуатации и сопровождению ИС? Отвечает за сохранность данных (расписания копирования, копирование и пр.)... ЧТО ПРОИСХОДИТ ВО ВЗРОСЛОЙ ЖИЗНИ? Если вы все еще «неправильно» связаны с матерью, вы избегаете отделения и независимого взрослого существования... ЧТО И КАК ПИСАЛИ О МОДЕ В ЖУРНАЛАХ НАЧАЛА XX ВЕКА Первый номер журнала «Аполлон» за 1909 г. начинался, по сути, с программного заявления редакции журнала... Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:
|