Двух независимых выборочных совокупностей.

Если эксперимент проводится на различных группах, то возникает вопрос: из одной генеральной совокупности или из разных взяты эти выборки? Если выборки взяты из одной генеральной совокупности, то разница их средних арифметических будет статистически незначима. Если выборки принадлежат к различным генеральным совокупностям, то разница их средних арифметических будет статистически достоверной (P

0,95).

Для установления разницы между средними арифметическими рассчитаем нормированное отклонение t:

Числителем является, взятая по абсолютной величине, разница между средними арифметическими двух групп (сокращенно обозначили d). В знаменателе – средняя квадратическая ошибка этой разницы

, сокращенно s_d. Вычисление средней квадратической ошибки разности средних арифметических s_d отличается для численности в выборках n<30 или n

30.

Если n<30, ошибка разницы определяется по формуле:

Например, определялось содержание белка в сыворотке крови в группе здоровых людей (n₁=5) и больных гепатитом (n₂=6). Определим, достоверна ли разница в содержании белка у здоровых людей и больных гепатитом. Для вычислений составим таблицу:

Определим t_таблдля P=0,95 и числа степеней свободы в двух группах: (n₁–1)+(n₂–1)=9; t_табл=2,26, t_эксп>t_табл (2,67>2,26). Следовательно, вероятность различия P>0,95. Полученное содержание белка в норме: 6,866

0,095 cтатистически достоверно отличается от содержания белка в крови при гепатите: 7,195

0,08.

Если численность выборок достаточно большая (n

30), то можно воспользоваться готовыми вычисленными ошибками

для каждой выборки. Средняя ошибка разницы в этом случае определяется по формуле:

Допустим, мы хотим сравнить действие двух лекарственных препаратов, снижающих артериальное давление. Группа больных, принимающих 1–й препарат, состояла из 40 человек, другая группа – из 50. Среднее систолическое артериальное давление в 1й группе составляло 150

20; во второй группе – 140

30. Определим, достоверна ли разница средних арифметических:

4. Стандартная ошибка (средняя квадратическая ошибка):

5. Критерий нормированного отклонения (по Стьюденту): t=

7. Критерий t_экспдля определения достоверности средней арифметической одной выборки:

8. Критерий t_экспразности средних арифметических двух выборок:

1. Отличаются ли друг от друга по закономерностям случайной вариации выборочная и генеральная совокупности?

2. Как колеблются средние арифметические отдельных выборок вокруг средней арифметической генеральной совокупности?

3. Что такое средняя квадратическая (стандартная) ошибка? По какой формуле она определяется?

4. Какова зависимость между значением стандартной ошибки и объемом совокупности?

5. В каких пределах по отношению к средней арифметической выборочной совокупности может находится средняя арифметическая генеральной совокупности? С какой вероятностью?

6. Изменяется ли доверительный интервал для

при разных величинах n?

7. В каких случаях применяется распределение Стьюдента?

8. Как определяется критерий нормированного отклонения по Стьюденту?

а) определить t для заданного уровня вероятности, зная число опытов n;

б) определить вероятность по известным t и числу опытов n.

10. Какой критерий используется для проверки достоверности статистических показателей?

11. Как определить достоверность средней арифметической одной выборки?

12. Как определить достоверность разности средних арифметических: а) зависимых выборок; б) независимых выборок?

13. Как отличается определение достоверности разности средних арифметических для независимых выборок в случае:

1. Рассчитать основные статистические характеристики (

, D, s,

) двух независимых выборок (таблица 1). Записать результат в виде

2. Для данных выборок определить доверительный интервал для генеральной средней:

3. Рассчитать достоверность различия двух независимых выборок (таблица 1).

4. Рассчитать достоверность различия двух связанных выборок (таблица 2) разностным методом. Записать вывод.

Скорость десневой экссудатации у детей (мл/сутки)

Скорость не стимулированного слюноотделения у детей (мл/мин.)

Норадреналин мочи (мкг/сутки) при грудной жабе.

Содержание адренокортикотропного гормона (мл.ед)

Содержание трийодтиронина (мг/мл) при тиреотоксикозе

Показатели гемоглобина пришлого населения Заполярья (г/л)

Количество плазматических недозрелых клеток

в слизистой толстой кишки (%) при дизентерии.

В медицинских и биологических исследованиях можно наблюдать наличие связей между отдельными признаками, явлениями. Например, пульс может изменяться в зависимости от артериального давления, дыхания, температуры тела и т.д. Существует две категории связей или зависимостей между признаками: функциональные и корреляционные (статистические).

При функциональных зависимостях каждому значению одной переменной величины соответствует одно вполне определенное значение другой переменной (функции).

Корреляционные (статистические) связи характеризуются тем, что численному значению одной переменной соответствует много значений (распределение) другой переменной.

Функциональная связь имеет место по отношению к каждому отдельному наблюдению. Корреляционная связь проявляется лишь в среднем для всей совокупности наблюдений. В отношении отдельных наблюдений она является неполной и неточной. Например, существует связь между ростом и весом человека, однако полного соответствия между значениями этих признаков нет. В некоторых случаях более высокие люди могут иметь меньший вес и наоборот. Функциональную связь можно выразить в виде уравнения, где изменению аргумента будет соответствовать вполне определенное приращение функции. При корреляции можно наблюдать только совместное изменение наблюдаемых признаков. Например, при увеличении одного признака другой признак может тоже увеличиваться или наоборот, уменьшаться. Соответственно, корреляционная связь может быть положительной (прямой), когда оба признака меняются в одном направлении и отрицательной (обратной), когда развитие одного явления связано с ослаблением другого. Корреляционные зависимости наблюдаются между очень многими признаками организмов – морфологическими, физиологическими и т.д., поэтому их оценка имеет большое практическое значение.

Изучение корреляционных зависимостей производится табличным, графическим и аналитическим методами. При табличном изучении корреляционных связей зависимость между величинами х и у задается двумерной таблицей, называемой корреляционной решеткой.

1. Для небольшого количества измерений, не сгруппированных в классы следует выписать попарно все показатели: сначала первый показатель – обозначим его х; затем связанный с ним второй показатель у; количество пар показателей х и у обозначим N. Например:

2. Для большого количества наблюдений. В этом случае разбиваем на классы как ряд х, так и ряд у. Определив классы, следует построить корреляционную решетку. На двух сторонах квадрата (вверху по горизонтали и слева по вертикали) наносят значения классов обоих рядов. По горизонтали классы записывают слева направо от меньших значений к большим, по вертикали сверху вниз от меньших к большим.

В макет корреляционной решетки следует занести показатели для всех обследованных одновременно по обоим признакам. Например, цифра 1 в первой клетке обозначает, что только один человек имеет артериальное давление от 60 до 70 и пульс от 30 до 40. Суммы всех опытов в горизонтальных строках пишутся справа(m_y), суммы всех опытов в вертикальных столбцах пишутся внизу (m_x). Справа внизу в угловой клетке записывается сумма всех опытов (72). Она относится как к ряду х так и к ряду у.

Корреляционная решетка для зависимости частоты

сердечных сокращений (ЧСС) от артериального давления (АД).

При графическом способе на плоскость попарно наносятся точки, соответствующие (х) и (у). Эти точки занимают определенную область, называемую корреляционным полем. На рисунках 1(а–е) показано возможное распределение вариант по отдельным клеткам корреляционной решетки при корреляциях, отличающихся по знаку и величине.

Если варианты расположены в решетке равномерно в овале и разброс точек велик, то признаки х и у варьируют независимо, корреляция между ними отсутствует (рис.1а). Если корреляционное поле имеет вид эллипса со сгущением точек вокруг главной диагонали, то между признаками х и у имеется связь (рис.1б, в, г, д, е). По тому, к какой диагонали происходит сгущение точек можно судить о знаке корреляции. На рис.1б, в, д – связь положительная, на рис.1г, е – связь отрицательная. По степени сгущения точек можно судить о величине коэффициента корреляции. Если варианты расположены по диагонали, зависимость между х и у становится функциональной, то есть каждому значению х соответствует определенное значение у и наоборот.

Рис 1. Распределение вариант в корреляционных решетках при корреляции, отличающейся по знаку и величине.

Расположение вариант в корреляционной решетке не всегда бывает таким правильным. Нахождение одной или нескольких вариант в стороне от овала может резко изменить предполагаемое значение коэффициента корреляции. Поэтому для более точного измерения степени связи необходимо аналитическое вычисление коэффициента корреляции (r). По законам случайной вариации, если бы разброс экспериментальных данных равнялся нулю, то точки корреляционного поля сконцентрировались в условном центре с координатами, равным средним значениям:

При реальных корреляциях между х и у мерой рассеяния могут служить дисперсии или средние квадратические отклонения s_x и s_y:

Простейшей характеристикой G_x_,_y связи между случайными величинами х и у служит математическое ожидание произведения отклонений х и у от условного центра. Напомним, что математическое ожидание случайной величины х принимающей n значений с вероятностями P_1,P₂, P₃,…,P_n, равно:

Эта характеристика носит название ковариации или момента связи и может быть вычислена для выборки из n опытов как:

Коэффициентом корреляции называется безразмерная величина r:

Так как отклонение тех или других вариант от их средней арифметической, выраженной в долях среднего квадратического отклонения, представляет собой нормированное отклонение:

Выражая отклонение отдельных вариант от средних арифметических по обоим признакам одновременно, можно сопоставить вариацию по обоим признакам. Рассмотрим зависимость между ростом и весом в примере 1. Вычислим

Вычислим для каждой варианты t_x и t_y_,например:

Чем теснее связана вариация по этим двум признакам, тем чаще совпадут значения t обоих признаков и по знаку, и по количественному значению. Причем разные единицы измерения (см) и (кг) не имеют значения. Места, занимаемые ими в вариационных рядах, будут примерно одинаковыми. Наоборот, при отсутствии корреляции совпадение величин t по обоим признакам будет чисто случайным.

При статистических оценках связи случайных величин (х) и (у) по заданным выборкам используют различные рабочие формулы, полученные путем алгебраического преобразования числителя и знаменателя формулы (7). Если не рассчитывались средние арифметические величины и средние квадратические отклонения, можно воспользоваться формулой:

Коэффициент корреляции изменяется от +1 до –1. Отрицательные значения указывают на обратную зависимость между величинами х и у (возрастание одной при убывании другой). Прямая связь между величинами существует при положительных значениях коэффициента корреляции. Корреляция будет полной при r = 1 и отсутствует при r = 0. Практически считается, что при r < 0,4 связь отсутствует, при 0,4 £ r £ 0,7 имеется слабая связь. Тесная взаимосвязь между случайными величинами или процессами х и у имеется при 0,7 £ r £ 1. Для вычисления коэффициента корреляции в нашем примере по формуле (8) составим таблицу:

Для удобства заменим суммы в формуле буквами латинского алфавита:

Вывод: Между ростом и весом имеется тесная положительная взаимосвязь. С увеличением роста увеличивается вес.

Полученный коэффициент корреляции является выборочным, поэтому он имеет свою ошибку – “ошибку” выборочности. Эта ошибка является мерой расхождения между коэффициентом корреляции выборки (r) и коэффициентом корреляции генеральной совокупности (обозначим его r). Согласно нулевой гипотезе предполагается, что в генеральной совокупности нет связи между варьирующими признаками (r=0). Тогда критерий нормированного отклонения:

При значении t_эксп, соответствующим вероятностям

0,95 или

0,99 (

), можно считать нулевую гипотезу отвергнутой, т.е. признать данное значение r достоверным. Для малых выборок (n<30) ошибку коэффициента корреляции s_r можно определить по формуле:

По таблице Стьюдента (таблица 4 Приложения) находим для Р=0,95 (a=0,05) и числа степеней свободы df=7 (df=n–2 т.к. 2 выборки) t_табл=2,37. t_эксп>t_табл, следовательно значение коэффициента корреляции достоверно.

Мы рассмотрели случай простой корреляции между двумя признаками для малого числа наблюдений. Однако вариация любого признака у человека или животных может быть связана с вариацией многих факторов. В этом случае определяют коэффициенты множественной или частной корреляции. Коэффициент корреляции указывает лишь на степень связи в вариации двух переменных величин, но не дает возможности судить о том, как количественно меняется одна величина по мере изменения другой. На этот вопрос позволяет ответить другой метод изучения связи между признаками – метод регрессии. При изучении связи между двумя признаками х и у с помощью метода регрессии можно установить, как количественно меняется один признак при изменении другого на единицу. Проведение регрессионого анализа можно разделить на три этапа:

вычисление коэффициентов выбранного уравнения;

оценка достоверности полученного уравнения.

Соответственно связи между изучаемыми признаками различают простую и множественную, линейную и нелинейную регрессию. Для того чтобы выбрать тип уравнения регрессии, необходимо проанализировать тесноту и характер связи (корреляции), графики эмпирической зависимости между переменными, биологическую сущность изучаемого явления.

При простой корреляции изучается зависимость между изменчивостью двух признаков х и у. Так как изменяются две величины, то регрессия может быть двусторонней: определение изменения у по изменению х и определение изменения х по изменению у. В медико–биологических исследованиях часто встречаются случаи, когда один признак (у) свободно варьирует, а второй является более фиксированным, т.е. такой свободной вариацией не обладает. Примером могут служить так называемые ряды динамики или временные ряды, показывающие изменение признаков во времени, регрессия таких рядов оказывается односторонней. Какую величину принимать за x или y, зависит от условий эксперимента. Например, вес щитовидной железы у человека можно определить только после операции. Однако имеется тесная связь между площадью скеннографического изображения (при введении радиоактивных изотопов) и весом этого органа. Зная уравнение регрессии, можно по площади скеннограммы определить вес щитовидной железы – важного диагностического признака.

Рассмотрим случай линейной регрессии. Уравнением регрессии у по х называется уравнение вида

=f (х), устанавливающее зависимость между значениями независимой переменной х и условными средними зависимой переменной

. Под условной средней понимается среднее арифметическое значение

, вычисленное для конкретного значения х. Например, с весом х=60 кг может встретиться три человека с ростом: 160, 166 и 164 см. Условная средняя для х=60 будет равна (160+166+164):3=163,33. Если коэффициент корреляции достоверен и близок к единице, а график эмпирической зависимости – к прямой линии, то зависимость между х и у линейная и выражается уравнением: у = а + bx. Коэффициент b характеризует скорость изменения зависимой переменной у при изменении переменной х и равен тангенсу угла наклона прямой к оси х: b=tg

(рис.2).

Коэффициент a – начальная ордината, определяет значение у при х = 0. Графически это отрезок, отсекаемый прямой по оси y. Одним из простых способов вычисления коэффициентов уравнения регрессии (не только линейной) является метод наименьших квадратов. Сущность его состоит в том, что наилучшим считается положение линии регрессии, при котором сумма квадратов отклонений эмпирических точек по ординатам от теоретических (расчетных) минимальна. Математически это условие записывается в виде:

где у_i – экспериментальные точки; у(х_i) – зависимость у(х_i)=а+bх_i

Для выполнения условия (12) нужно приравнять нулю частные производные:

что дает для определения неизвестных коэффициентов а и b систему линейных уравнений:

Коэффициент b носит название коэффициента регрессии. Для удобства введем обозначения:

Рассмотрим основные этапы проведения регрессионного анализа на примере зависимости веса щитовидной железы (у) от площади скеннографического изображения (х).

Построим эмпирическую кривую распределения, выбрав соответствующий масштаб:

Для вычисления коэффициента a и b составим таблицу:

Уравнение регрессии будет иметь вид: у = -41,71 +3,332 х

Для построения теоретической линии регрессии достаточно рассчитать по этому уравнению несколько точек: при х = 0; у =-41,71

Уравнение регрессии позволяет вычислять теоретические (вероятные) значения зависимой переменной по заданным значениям независимых переменных в области их изменения. Как правило, оно применяется только внутри этой области. Например, если у больного площадь скеннографического изображения равна 30 см², то вес щитовидной железы равен: y=-41,71+3,332×30=58,25г.

Так как уравнение регрессии определялось нами на основе выборочной совокупности, оно может в той или иной мере представлять уравнение истинной регрессии в генеральной совокупности.

Коэффициенты а и b, как и другие статистические параметры, имеют ошибки выборочности. В более простом случае для оценки качества полученного уравнения регрессии можно воспользоваться разностным методом, используемом нами для оценки средних арифметических парных выборок (Тема 2). Вычислим разности между эмпирическими значениями у_i_эмпи теоретическими у_i_теор, рассчитанные по уравнению регрессии. Найдем разности этих значений d=y_i_эмп–у_i_теор. Рассчитаем статистические характеристики разностного ряда: d_срs_d. Найдем t_эксп=

. Если t_эксп< t_табл для числа степеней свободы n–1 и р=0,95, то различие сравниваемых рядов несущественно, т.е. уравнение регрессии соответствует истинному уравнению в генеральной совокупности.Для оценки уравнения регрессии составим таблицу:

t_табл=2,26, t_эксп<< t_табл, различие сравниваемых рядов несущественно.

2. В чем заключается разница между корреляционной и функциональной зависимостью?

3. Какими способами можно изучать корреляционные зависимости?

4. Что такое корреляционная решетка, корреляционное поле?

6. Как определяется коэффициент корреляции с помощью двух нормированных отклонений?

Конфликты в семейной жизни. Как это изменить? Редкий брак и взаимоотношения существуют без конфликтов и напряженности. Через это проходят все...

Система охраняемых территорий в США Изучение особо охраняемых природных территорий(ООПТ) США представляет особый интерес по многим причинам...

Что делать, если нет взаимности? А теперь спустимся с небес на землю. Приземлились? Продолжаем разговор...

ЧТО И КАК ПИСАЛИ О МОДЕ В ЖУРНАЛАХ НАЧАЛА XX ВЕКА Первый номер журнала «Аполлон» за 1909 г. начинался, по сути, с программного заявления редакции журнала...

Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте: