Сдам Сам

ПОЛЕЗНОЕ


КАТЕГОРИИ







Статистическая связь. Корреляционный анализ





Статистические распределения характеризуются наличием более или менее значительной вариации в величине признака у отдельных единиц совокупности. Отсюда возникает вопрос о том, какие же причины формируют уровень признака в данной совокупности и каков конкретный вклад каждой из них.

Исследования показывают, что вариация каждого изучаемого признака находится в тесной связи с вариациями других признаков, характеризующих исследуемую совокупность единиц. По своему значению для изучения взаимосвязи признаки подразделяются на:

1. Результативные признаки. Признаки, которые изменяются под действием других, связанных с ними признаков.

2. Факторные признаки. Признаки, обуславливающие изменение результативных признаков.

Под статистической связью мы будем понимать зависимость, при которой изменение одной из величин влечёт изменение распределения другой. По характеру зависимости признаков различают:

1. Функциональная (полная) связь. Вид связи, при которой определённому значению факторного признака соответствует одно и только одно значение факторного признака.

2. Корреляционная (неполная) связь. Вид связи, при которой статистическая зависимость проявляется в том, что определённому значению факторного признака соответствует лишь среднее значение результативного признака.

Задачей корреляционного анализа является количественное определение степени связности между признаками (при парной связи) и между результативными и факторными признаками (при многофакторном анализе). Корреляционный анализ предваряет различные сложные методы статистического анализа и проявляется в основном в расчёте коэффициентов корреляции.

Термин «корреляция» был введён Ф. Гальтоном в 1886 году. Однако точную формулу для подсчёта коэффициента корреляции предложил его ученик К. Пирсон. Коэффициент характеризует наличие только линейной связи между признаками, обозначаемыми, как правило, символами X и Y. Формула расчёта коэффициента корреляции построена таким образом, что если связь между признаками имеет линейный характер, то коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому данный коэффициент ещё называют коэффициентом линейной корреляции Пирсона. Если же связь не линейна, то Пирсоном предлагается использовать, так называемое, корреляционное отношение. Предполагается, что переменные X и Y распределены нормально.

В общем виде коэффициент корреляции можно представить следующим образом:

,

где (если при расчётах получается величина вне пределов диапазона, то следует искать ошибку в вычислениях); Xi – значения выборки X; Yi – значения выборки Y; – средняя по X; – средняя по Y. Знак коэффициента корреляции очень важен для интерпретации полученной связи. Если корреляция положительная, то связь между признаками такова, что увеличению значения первого признака соответствует увеличение значения второго признака. Обратным данному виду связи будет отрицательная корреляция, при которой увеличению значения первого признака соответствует уменьшение значения второго признака. Если взять значения из числителя коэффициента корреляции и разделить его на n (число значений одной из переменных), то мы получим коэффициент ковариации. Когда требуется сравнить несколько выборок, то данные собирают в таблицы корреляции или ковариации:

  WORK_1 WORK_2 WORK_3 HOBBY_1 HOBBY_2
WORK_1 1,00 0,65 0,65 0,60 0,52
WORK_2 0,65 1,00 0,73 0,69 0,70
WORK_3 0,65 0,73 1,00 0,64 0,63
HOBBY_1 0,60 0,69 0,64 1,00 0,80
HOBBY_2 0,52 0,70 0,63 0,80 1,00

 

Корреляционная связь между признаками может осуществляться не непосредственно, а косвенно – за счет связи каждого из них в отдельности с каким-либо третьим (четвертым и т.д.) признаком. Например, размеры вегетативных органов обычно сильно коррелируют с высотой растения, и для изучения связи между ними в «чистом» виде необходимо найти способ исключить влияние на эту связь высоты растения.

Если рассчитаны парные коэффициенты корреляции rxy, rxz,, ryz между тремя признаками (x,y,z), то исключить влияние признака z на связь между признаками х и у можно, рассчитав коэффициент частной корреляции:

.

В случае когда вы имеем дело с ранжированными данными, то есть по сути со значениями порядковой шкалы, то целесообразно использовать коэффициенты ранговой корреляции. Наиболее часто используются коэффициент Кенделла (τ) и коэффициент Спирмена (ρ):

Коэффициент ранговой корреляции Спирмена используется в случае когда определяется фактическая степень связи между двумя количественными рядами изучаемых признаков и дается оценка близости установленной связи с помощью количественно выраженного коэффициента. Практический расчет коэффициента ранговой корреляции Спирмена включает следующие этапы: 1) сопоставление для каждого из признаков его порядкового номера (ранга) по возрастанию (или убыванию); 2) определение разности рангов каждой пары сопоставляемых значений; 3) возведение в квадрат каждой разности и суммирование полученных результатов.

Вычисляется ро-Спирмена по формуле:

где ri – ранг среди ряда чисел (xi, …, xn); si – ранг среди ряда чисел (yi, …, yn); – число парных наблюдений. Тау-Кенделла определяется как:

,

где n – общее число рангов; K – число инверсий, т.е. перестановок элементов ряда si относительно упорядоченного ri. Например, ri = 1, 2, 3, 4, а si = 3, 2, 1, 4 (m = 4). Потребуется 3 инверсии: 3-2, 3-1, 2-1, чтобы сопоставить эти два ряда.

При использовании коэффициента ранговой корреляции условно оценивают тесноту связи между признаками, считая значения коэффициента равные 0,3 и менее, показателями слабой тесноты связи; значения более 0,4, но менее 0,7 - показателями умеренной тесноты связи, а значения 0,7 и более - показателями высокой тесноты связи.

Рассмотрим пример. Группу из 10 студентов протестировали двумя разными тестами. Рассчитаем коэффициент Спирмена:

ранг по тесту А                    
ранг по тесту В                    

Для нашего случая . Следовательно:

.

Рассмотрим ещё один пример. Определим степень связи итогов чемпионата России по футболу в премьер-лиге и результаты первого круга 2002 года.

Команда Локо ЦСКА Спартак Торпедо Кр. Сов. Сатурн Шинник Динамо Ротор Зенит
Итог 2002                    
1 круг                    

Решение. Определим степень связи по выборочному коэффициенту ранговой корреляции Кендалла. Определим количество итераций: 6-4, 10-4, 7-8, 10-6, 10-7, 10-8, 10-5, 10-9, 5-8, 5-7, 5-6 – всего 11 итераций. K = 11; n = 10.

.

Следовательно, между итогом чемпионата и результатом первого круга существует прямая средней силы связь.

Задача №15. Спортсмены, ранги которых при построении по росту были 1, …, 10 заняли на состязаниях соответственно следующие места: 6, 5, 1, 4, 2, 7, 8, 10, 3, 9. Как велика ранговая корреляция между ростом и быстротой бега?

Задача №16. Определите связь между урожайностью пшеницы и картофеля:

Год Пшеница, (ц) Картофель, (ц)
  20,1 7,2
  23,6 7,1
  26,3 7,4
  19,9 6,1
  16,7 6,0
  23,2 7,3
  31,4 9,4
  33,5 9,2
  28,2 8,8
  35,3 10,4
  29,3 8,0
  30,5 9,7

Задача №17. Измерения длины головы (x) и длины грудного плавника (y) у 16 окуней дали результаты (в мм.): х = 66, 61, 67, 73, 51, 59, 48, 47, 58, 44, 41, 54, 52, 47, 51, 45 и y = 38, 31, 36, 43, 29, 33, 28, 25, 36, 26, 21, 30, 20, 27, 28, 26. Найдите коэффициенты ранговой корреляции. Найдите коэффициент корреляции Пирсона (исходим из предположения о нормальном распределении).

Задача №18. Связь между массой тела (x) и количеством гемоглобина в крови (y) у павианов характеризуется следующими данными: х = 18, 17, 19, 18, 19, 22, 21, 21, 20, 30 и y = 70, 74, 72, 80, 77, 80, 80, 89, 76, 86. Найдите коэффициенты ранговой корреляции. Найдите коэффициент корреляции Пирсона (исходим из предположения о нормальном распределении).

 

Дисперсионный анализ

Что делать, когда мы хотим сравнить несколько выборок? Попарно сравнивать параметрическими или непараметрическими критериями? Очень быстро мы утонем в расчётах. Но, разумеется, наука уже знает способ нам помочь. Для сравнения трёх и более выборок используют дисперсионный анализ (ANOVA).

Дисперсионный анализ, основы которого были разработаны Фишером в 1920-1930 гг., позволяет устанавливать не только степень одновременного влияния на признак нескольких факторов и каждого в отдельности, но также их суммарное влияние в любых комбинациях и дополнительный эффект от сочетания разных факторов. Разумеется, и в этом случае остается масса неучтенных факторов, но, во-первых, методика позволяет оценить долю их влияния на общую изменчивость признака, а во-вторых, исследователь обычно имеет возможность выделить несколько ведущих факторов и исследовать именно их воздействие на изменчивость признаков.

Дисперсионный анализ позволяет решить множество задач, когда требуется изучить воздействие природных или искусственно создаваемых факторов на интересующий исследователя признак. Дисперсионный анализ принадлежит к числу довольно трудоемких биометрических методов, однако правильная организация опыта или сбора данных в природных условиях существенно облегчает вычисления.

Идея дисперсионного анализа заключается в разложении общей дисперсии случайной величины на независимые случайные слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение этих дисперсий позволяет оценить существенность влияния фактора на исследуемую величину. Таким образом, задача дисперсионного анализа состоит в том, чтобы выявить ту часть общей изменчивости признака, которая обусловлена воздействием учитываемых факторов, и оценить достоверность делаемого вывода.

Пусть, например, А – исследуемая величина, – среднее значение величины А, учитываемые факторы мы обозначим буквой х, неучитываемые – z, а все факторы вместе – буквой у (или припиской этих букв к соответствующим символам). Неучитываемые факторы составляют «шум» – помехи, мешающие выделить степень влияния учитываемых факторов. Отклонение А от при действии факторов х и z можно представить в виде суммы

(А- )=У=Х+Z,

где Х – отклонение, вызываемое фактором х, Z – отклонение, вызываемое фактором z, У – отклонение, вызываемое всеми факторами. Кроме того, предположим, что Х,У,Z – являются независимыми случайными величинами, обозначим дисперсии через s2Х, s2Y, s2Z, s2А. Тогда имеет место равенство:

s2А=s2Х+s2Z

Сравнивая дисперсии можно установить степень влияния факторов х и z на величину А, т.е. степень влияния учтенных и неучтенных факторов.

Непременным условием дисперсионного анализа является разбивка каждого учитываемого фактора не менее чем на две качественные или количественные градации. Если исследуется влияние одного фактора на исследуемую величину, то речь идет об однофакторном комплексе, если изучается влияние двух факторов – то о двухфакторном комплексе и т.д. Для проведения дисперсионного анализа обязательным условием является нормальное распределение и равные дисперсии совокупности случайных величин.

Для пояснения логической схемы дисперсионного анализа рассмотрим простейший произвольный пример. Предположим, что совокупности возрастающих доз удобрения на разных делянках имеют нормальное распределение и равные дисперсии. Имеется m таких совокупностей (разные делянки), из которых произведены выборки объемом n1,n2,…,nm. Обозначим выборку из i -ой совокупности через (хi1i2,…хin) - урожайность делянок. Тогда все выборки можно записать в виде таблицы, которая называется матрицей наблюдений.

Таблица 2.3







Живите по правилу: МАЛО ЛИ ЧТО НА СВЕТЕ СУЩЕСТВУЕТ? Я неслучайно подчеркиваю, что место в голове ограничено, а информации вокруг много, и что ваше право...

Конфликты в семейной жизни. Как это изменить? Редкий брак и взаимоотношения существуют без конфликтов и напряженности. Через это проходят все...

ЧТО ТАКОЕ УВЕРЕННОЕ ПОВЕДЕНИЕ В МЕЖЛИЧНОСТНЫХ ОТНОШЕНИЯХ? Исторически существует три основных модели различий, существующих между...

Что делать, если нет взаимности? А теперь спустимся с небес на землю. Приземлились? Продолжаем разговор...





Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:


©2015- 2024 zdamsam.ru Размещенные материалы защищены законодательством РФ.