|
Матрица корреляций пяти показателей интеллекта
|
Та б л и ц а 16.2
Факторные нагрузки после варимакс-вращения
|
Применив факторный анализ, исследователь выделил два фактора. Основной результат, который подлежит интерпретации исследователем, — таблица факторных нагрузок после варимакс-вращения (табл. 16.2). Не рассматривая пока шаги, приводящие к этому результату, попытаемся проинтерпретировать полученные данные. В нашем примере по фактору 1 (У^) максимальные нагрузки имеют переменные 1 и 2. Следовательно, фактор 1 и определяется этими переменными. Поскольку переменная 1 — счет в уме, а переменная 2 — продолжение числового ряда, то фактору 1 может быть присвоено название «арифметические способности», как показателю легкости оперирования числовым материалом. Точно так же фактору 2 можно присвоить название «вербальные способности», как показателю словесного понимания. Нетрудно заметить, что переменные, определяющие фактор, сильнее связаны друг с другом, чем с другими переменными (табл. 16.1). Так, переменные 1 и 2, определяющие фактор 1, сильнее связаны друг с другом, чем с переменными 3, 4 и 5. Таким образом, за взаимосвязью пяти исходных измерений способностей при помощи факторного анализа обнаруживается действие двух латентных переменных (факторов).
Интерпретация фактора через исходные переменные
Интерпретация факторов — одна из основных задач факторного анализа. Ее решение заключается в идентификации факторов через исходные переменные. Эта идентификация и осуществляется по результатам обработки, представленным в табл. 16.2.
![]() |
Основное содержание табл. 16.2 — величины оп... о25 — факторные нагрузки переменных 1... 5 (строки) по факторам 1 и 2 (столбцы). Факторные нагрузки — аналоги коэффициентов корреляции, показывают степень взаимосвязи соответствующих переменных и факторов: чем больше абсолютная величина факторной нагрузки, тем сильнее связь переменной с фактором, тем больше данная переменная обусловлена действием соответствующего фактора. Каждый фактор идентифицируется по тем переменным, с которыми он в наибольшей степени связан, то есть по переменным, имеющим по
этому фактору наибольшие нагрузки. Идентификация фактора заключается, как правило, в присвоении ему имени, обобщающего по смыслу наименования входящих в него переменных.
Если исследователя интересует только структура измеренных признаков, на этом факторный анализ завершается. Продолжая факторный анализ, исследователь далее может вычислить значения факторов для испытуемых, например, с целью их дифференциации по преобладанию арифметических или вербальных способностей.
Выбирая факторный анализ как средство изучения корреляций, исследователь должен отдавать себе отчет в том, что это один из самых сложных и трудоемких методов. Зачастую нет веских оснований предполагать наличие факторов как скрытых причин изучаемых корреляции, и задача заключается лишь в обнаружении группировок тесно связанных переменных. Тогда целесообразнее вместо факторного анализа использовать кластерный анализ корреляций (см. главу 19). Помимо простоты, кластерный анализ обладает еще одним преимуществом: его применение не связано с потерей исходной информации о связях между переменными, что неизбежно при факторном анализе. И уже после выделения групп тесно связанных переменных можно попытаться применить факторный анализ для их объяснения.
Итак, можно сформулировать основные задачи факторного анализа:
1. Исследование структуры взаимосвязей переменных. В этом случае каждая группировка переменных будет определяться фактором, по которому эти переменные имеют максимальные нагрузки.
2. Идентификация факторов как скрытых (латентных) переменных — причин взаимосвязи исходных переменных.
3. Вычисление значений факторов для испытуемых как новых, интегральных переменных. При этом число факторов существенно меньше числа исходных переменных. В этом смысле факторный анализ решает задачу сокращения количества признаков с минимальными потерями исходной информации.
МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ ИДЕИ И ПРОБЛЕМЫ МЕТОДА
Анализ главных компонент и факторный анализ
Модель главных компонент лежит в основе большинства методов факторного анализа и часто рассматривается как один из его самостоятельных вариантов. Анализ главных компонент преобразует набор коррелирующих исходных переменных в другой набор — некоррелирующих переменных. Проще всего понять суть этого метода, привлекая геометрические представления.
Предположим, у нас имеются две положительно коррелирующие переменные Хи У, измеренные на группе объектов. Тогда график двумерного распределения (рассеивания) этих объектов в осях измеренных признаков (координаты объектов заданы значениями признаков) будет представлять собой эллипс, так как большим значениям переменной X будут соответствовать большие значения переменной У и наоборот (рис. 16.1). Главная ось эллипса Мх — это прямая, вдоль которой будет наблюдаться наибольший разброс данных. Вдоль второй оси эллипса М2, перпендикулярной первой и проходящей через ее середину, будет наблюдаться наименьший разброс данных.
Если перед нами стоит задача представления объектов (точек) в терминах только одной размерности (переменной), то главная ось эллипса является наиболее подходящей, так как вдоль нее объекты отличаются друг от друга лучше (дисперсия больше), чем вдоль любой другой прямой, в том числе и вдоль отдельно оси X или У. Анализ главных компонент в отношении этих двух признаков и состоит в переходе от них к главной компоненте, соответствующей главной оси эллипса, и в представлении объектов в значениях проекций объектов на эту ось (главную компоненту). Иначе говоря, происходит переход от координат каждого объекта по двум осям (X, У) к их координатам только по одной оси Мх — главной компоненте (рис. 16.1). Отметим, что в случае отсутствия взаимосвязи двух признаков главной компоненты просто не существует, так как обе оси (компоненты) являются равнозначными.
![]() |
Анализ главных компонент можно представить как преобразование информации, содержащейся в исходных данных. Так, определяя главную компоненту как направление, в котором наблюдается наибольший разброс объектов, представляя объекты в единицах измерения по этой оси, мы теряем минимум информации об отличии объектов друг от друга. Чем сильнее взаимосвязь двух переменных, тем меньше исходной информации теряется при переходе от двух переменных к одной главной компоненте. Если две переменные не коррелируют, то компоненты (оси) являются равнозначными по информативности, и невозможно определить одну из них как «главную».
При наличии более двух коррелирующих переменных принцип определения главных компонент тот же. В осях трех и более переменных график разброса объектов будет представлять собой эллипсоид (овальное тело) в пространстве трех и более измерений. Первая ось этого эллипсоида пройдет по его наибольшему диаметру, вторая — по наибольшему диаметру в плоскости, рассекающей эллипсоид посередине и перпендикулярно первой оси, и так далее. Количество осей этого эллипсоида будет равно количеству переменных, и в направлении каждой последующей оси будет все меньший и меньший разброс наблюдений. При этом количество компонент, которые исследователь выбирает как «главные», определяется произвольно. Таким образом, анализ главных компонент решает задачу сокращения количества переменных при условии сохранения максимальной доли дисперсии наблюдений.
Анализ главных компонент является исходной процедурой многих методов факторного анализа и может рассматриваться как их упрощенный аналог. Поэтому более подробно рассмотрим на его примере наиболее важные понятия факторного анализа.
В основе анализа главных компонент лежит математический метод нахождения собственных значений и собственных векторов корреляционной матрицы. Не останавливаясь на определениях и процедурах этого метода, отметим то, что действительно имеет существенное значение для дальнейшего понимания основ факторного анализа. В процессе компонентного анализа решается уравнение (в матричной форме):
К = АА\ (16.1)
где К — исходная матрица корреляций; А — матрица, каждый элемент которой аш — компонентная нагрузка переменной \ (строка) по компоненте к (столбец); А' — транспонированная матрица А. Уравнение 16.1 Л. Терстоун назвал «фундаментальной факторной теоремой» (Г. Харман, 1972). Результатом решения этого уравнения является матрица компонентных нагрузок А.
Рассмотрим важные особенности матрицы компонентных нагрузок на примере компонентного анализа корреляционной матрицы, представленной втабл. 16.1. Решение уравнения 16.1 позволяет получить матрицу компонентных нагрузок (табл. 16.3).
Таблица 16.3
Компоненты корреляционной матрицы показателей интеллекта
|
Собственные значения выделяются в порядке их убывания в соответствии с осями эллипсоида разброса наблюдений. Количество выделяемых компонент (и собственных значений) равно числу переменных. Сумма всех собственных значений равна количеству переменных. Отметим, что если бы все корреляции между исходными переменными были бы равны нулю, то каждое собственное значение равнялось бы 1. Чем выше корреляции между переменными, тем больше предыдущие собственные значения и меньше — последующие. Собственное значение, деленное на количество переменных, есть доля дисперсии, соответствующая данной компоненте. Все компоненты исчерпывают 100% совокупной дисперсии переменных.
Каждый элемент а1к матрицы А — это компонентная нагрузка переменной / (строка) по компоненте к (столбец). Компонентная (как и факторная) нагрузка — аналог коэффициента корреляции, мера связи переменной / и компоненты к. Соответственно, квадрат компонентной нагрузки (как и корреляции) приобретает смысл части дисперсии, в данном случае — части дисперсии переменной, объясняемой соответствующей компонентой. Сумма квадратов всех компонентных нагрузок по строке равна 1, полной дисперсии переменной (в ^-значениях).
Таким образом, полная единичная дисперсия каждой переменной разложена по компонентам. Сумма квадратов всех компонентных нагрузок по столбцу равна собственному значению данной компоненты:
р
Я/ = Е°/У' (16.2)
м
где / — номер компоненты, ] — номера переменных (количеством Р).
Как было указано, это собственное значение, деленное на количество переменных, есть доля дисперсии, соответствующая данной компоненте, и используется как показатель информативности компоненты.
Уравнение 16.1 позволяет восстановить коэффициенты корреляции по матрице компонентных нагрузок А, так как произведение этой матрицы на саму себя транспонированную дает корреляционную матрицу. В соответствии с правилом умножения матриц, каждый коэффициент корреляции г^ может быть восстановлен через компонентные нагрузки, как сумма всех (по строке) произведений нагрузок для этих двух переменных по каждой компоненте. Восстановленный коэффициент корреляции вычисляется по формуле:
м
^ = (16.3)
к=\
где I,] — номера переменных в корреляционной матрице; к — номер компоненты; М — количество компонент; а — компонентные нагрузки. Так, восстановленная корреляция между переменными 3 и 5:
/■35= 0,75-0,78 + 0,41-0,30+ (-0,06)0,52 + (-0,51)0,18 + (-0,01)0,05 = 0,58.
Заметим, что диагональный элемент корреляционной матрицы, как корреляция признака с самим собой (г =/), равен сумме квадратов всех компонентных нагрузок данной переменной — по строке, то есть 1.
Исследователь может воспользоваться анализом главных компонент как упрощенным вариантом факторного анализа. Тогда он выберет не все компоненты, а только главные, объясняющие большую часть дисперсии. В данном случае главными будут первые две компоненты, объясняющие 81% суммарной дисперсии переменных.
Переход к главным компонентам позволяет ввести еще одно важное понятие факторного анализа. Общность (СоттипаИгу) — часть дисперсии переменной, объясняемая главными компонентами (факторами), вычисляется как сумма квадратов нагрузок по строке:
![]() |
(16.4)
где / — номер переменной, к — номер (главной) компоненты. Например, если по таблице 16.3 выделяются две главные компоненты, то общность переменной 1: к? = 0,772 + (-0,58)2 = 0,93, а общность переменной 4: /г42 = 0,682 + 0,532 = 0,74. То есть первые две компоненты исчерпывают 93% дисперсии переменой 1 и 74% дисперсии переменной 4.
Восстановленные только по главным компонентам коэффициенты корреляции (по формуле 16.3) будут меньше исходных по абсолютной величине, а на диагонали восстановленной корреляционной матрицы будут не 1, а величины общностей.
Анализ главных компонент в «чистом виде» используется для решения одной из ключевых проблем факторного анализа — проблемы числа факторов.
Принцип выделения «главных факторов» в факторном анализе тот же, что и при анализе главных компонент. Но в отличие от компонентного анализа факторный анализ направлен на объяснение корреляций между переменными, а не только компонент дисперсии.
(16.5) |
Факторная структура (Расюг Зпиаиге Магпх) — основной результат применения факторного анализа. Элементы факторной структуры — факторные нагрузки (РасХог ЬоасНщз) переменных а1к, аналогичные компонентным нагрузкам (см. табл. 16.3). Однако основное требование их получения, в отличие от анализа главных компонент, — максимально полное отражение исходных коэффициентов корреляции. Поэтому оснонное уравнение факторного анализа:
К = А-А'при условии Л—> К,
где К — исходная матрица интеркорреляций; К — матрица восстановленных коэффициентов корреляции; А — матрица факторных нагрузок размерностью, столбцы которой — факторные нагрузки /^переменных по Мфакторам; А' — транспонированная матрица А. Отличие уравнения 16.5 от сходного с ним уравнения компонентного анализа (16.1) в том, что матрица факторных нагрузок А вычисляется таким образом, чтобы восстановленные коэффициенты корреляции минимально отличались от исходных корреляций.
Рассмотрим искомую факторную структуру в общем виде, как матрицу факторных нагрузок (табл. 16.4). В этой таблице Р строк, соответствующих переменным, и М столбцов — факторов. Значение аш — это факторная на
грузка переменной / по фактору к. Соотношения величин в этой таблице идентично соотношениям в таблице компонентных нагрузок. Собственное значение (ЕщетаЫе) каждого фактора Хк, по формуле 16.2, равно сумме квадратов факторных нагрузок всех переменных по фактору к (по столбцу). Общность каждой переменной к}, в соответствии с формулой 16.4, равна сумме квадратов факторных нагрузок переменной / по всем факторам. Коэффициент корреляции между любыми двумя переменными может быть восстановлен по этой таблице, как сумма произведений факторных нагрузок по соответствующим строкам (по формуле 16.3).
Таблица 16.4
![]() ![]() Что будет с Землей, если ось ее сместится на 6666 км? Что будет с Землей? - задался я вопросом... ![]() ЧТО ПРОИСХОДИТ, КОГДА МЫ ССОРИМСЯ Не понимая различий, существующих между мужчинами и женщинами, очень легко довести дело до ссоры... ![]() ЧТО ТАКОЕ УВЕРЕННОЕ ПОВЕДЕНИЕ В МЕЖЛИЧНОСТНЫХ ОТНОШЕНИЯХ? Исторически существует три основных модели различий, существующих между... ![]() ЧТО ПРОИСХОДИТ ВО ВЗРОСЛОЙ ЖИЗНИ? Если вы все еще «неправильно» связаны с матерью, вы избегаете отделения и независимого взрослого существования... Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:
|