Сдам Сам

ПОЛЕЗНОЕ


КАТЕГОРИИ







часть iii. многомерные методы и модели





ПРИМЕР 18.2____________________________________________________________________

В уже упоминавшемся исследовании восприятия студентами учебных предметов1 каждый из 73 студентов оценивал различия между 14 элементами, в качестве кото­рых выступали пройденные учебные курсы. Полученный массив данных (73 мат­рицы) обрабатывался при помощи МШ индивидуальных различий. Было получено 3-шкальное решение — достаточно устойчивое и воспроизводимое. Оно оказалось общим для большинства из опрошенных студентов. Для интерпретации шкал да­лее были проведены структурированные интервью (метод выявления конструктов), материалом для которых являлись учебные дисциплины, поляризованные по шка­лам. При проведении интервью учитывалось индивидуальное своеобразие точек зрения опрашиваемого (по результатам шкалирования). Удалось выявить общие конструкты — критерии восприятия студентами учебных курсов. Ими оказались:

1 — «биодетерминизм — социодетерминизм» (в объяснении причин поведения);

2 — «исследование — коррекция» (на чем делается акцент в содержании дисципли­ны); 3 — «общие — прикладные» (по широте применения или назначения дисцип­лины). Интересно отметить, что те же конструкты были выявлены и у тех, чьи дан­ные не соответствовали групповым и для которых были составлены индивидуальные поляризации предметов для интервью — в соответствии с результатами шкалиро­вания индивидуальных матриц.

ПРИМЕР 18.3____________________________________________________________________

Изучалась структурированность представлений студентов о разных психологиче­ских концепциях. Для этого двум студентам предлагалось сравнить попарно по сте­пени различия концепции пяти ученых: В. Вундта, Э. Титченера, И. М. Сеченова, Э. Торндайка и М. Вертгеймера. В процедуре исследования каждому студенту было предложено оценивать различие концепций в каждой паре из всех возможных со­четаний (всего 5(5 — 1)/2 = 10 пар) по 5-балльной шкале (1 — очень похожи, 5 — совсем не похожи). Результаты оценки различий представлены в табл. 18.5.



Та б л и ц а 18.5

Результаты попарного сравнения пяти концепций двумя студентами
Концепции Обозначения Студент 1 Студент 2
В. Вундт Э. Титченер И. М. Сеченов Э. Торндайк М. Вертгеймер В. Вундт Э. Титченер И. М. Сеченов Э. Торндайк М. Вертгеймер
В. Вундт vi                
Э. Титченер у2            
И. М. Сеченов уЗ        
Э. Торндайк у4    
М. Вертгеймер у5

1 Лященко С., Наследов А. Исследование предпочтений студентами учебных предметов // Пси­хология, акмеология, педагогика — образовательной практике: к 150-лстию кафедры педагогики (педагогики и педагогической психологии) и 35-летию ф-та психологии СПбГУ. СПб., 2001.

 

Обработка на компьютере

Для обработки воспользуемся данными примера 18.3. Исходные данные (1)а1а Ейког) представляют собой нижние треугольники матриц попарных раз­личий между 5 объектами (табл. 18.4). Для реализации программы ШБ8САЬ необходимо, чтобы матрицы для разных субъектов находились друг под другом. В нашем примере вторая матрица расположена под первой.

1. Выбираем Апа1уге > 8са1е > Ми1йШте1Шопа1 8саПп§ (АЬ8САЬ)...

Примечание. Если данные представляют собой оценки объектов по ряду признаков каждым из экспертов (испытуемых), а не матрицы различий, то вме­сто программы АЬ8САЬ лучше воспользоваться программой РЯОХ8САЬ.

2. В открывшемся окне диалога переносим из левого в правое верхнее окно (УапаЫев) переменные, необходимые для шкалирования (VI, V2, V3, V4, V5). Убеждаемся, что в поле Б181апсе8 (Расстояния) точкой отмечено Ба1а аге йЫапсез (Данные — расстояния), а нажав кнопку 8Ьаре... (Уточнить), убеж­даемся, что матрица данных 8^иа^е 8утте1пс (Симметричная квадратная). Нажимаем СопИпие.

3. Нажимаем кнопку Мойе1... (Модель...) и задаем параметры модели шка­лирования. Для данной модели главный параметр — 8саПп§ шойе1 (Модель шкалирования). Вместо заданной по умолчанию ЕисКйеап Й18(апсе (Евклидо­во расстояние) задаем 1пЙ1Ун1иа1 Й1Йегепсе8 ЕисНйеап сИ$1апсе (Евклидово рас­стояние индивидуальных различий). В отношении остальных установок руководствуемся теми же соображениями, что и при реализации модели не­метрического шкалирования.

Следующим параметром является количество шкал. Обычно следует по­лучить результаты для нескольких шкал и выбрать наилучшее из них — по величинам стресса и по отчетливости интерпретации. В данном случае у нас всего 5 объектов, поэтому вряд ли потребуется более двух шкал. Задаем 01теп810п8 (Шкалы) > Мттшт: 2 (Минимум), Махтшт: 2 (Максимум). Параметры Ьеуе1 оГ теавигетеп! (Уровень измерения) можно не менять и ос­тавить принятые по умолчанию Огйша1 (Порядковый): их изменение практи­чески не меняет результаты. Разве что можно поставить флажок ШНе Ней оЬзегуайоп (Корректировать связанные наблюдения) — для устранения влия­ния связей (повторов) в рангах.

Убеждаемся, что установлено СопйШопаШу: Ма1пх (Условие подгонки: вся матрица).

После задания всех параметров модели нажимаем СопНпие.

4. В основном окне диалога нажимаем ОрНоп8 (Опции) для задания пара­метров обработки и вывода результатов. В появившемся окне диалога внизу в поле Б|8р1ау (Вывод) отмечаем флажком Сгоир р1о18 (Графики для всей груп­пы) — для графического отображения объектов в координатах шкал. В поле Сгйепа (Критерий) указаны критерии для итераций по подгонке модели: 5-81ге$$ сопуегеепсе: 0,001 (Величина сходимости з-стресса), Мпшпит 8-81ге88 уа1ие: 0,005 (Минимальная величина з-стресса), Махшит ИегаНопз: 30 (Мак-
сималъное количество итераций). Эти величины можно не менять. В отно­шении этих величин руководствуемся теми же соображениями, что и при ре­ализации модели неметрического шкалирования.

После задания всех параметров обработки и вывода результатов нажимаем Сопипие.

Нажимаем ОК и получаем результаты.

5. Основные результаты МШ индивидуальных различий.

A) «История» итераций:

ГЬегаЫоп 3-з(;гезз 1шргсл/етеп1;

(Итерация) (5-стресс) (Улучшение)

0 .00096

1 .00074

ТЬегаЫопз зЬоррей Ьесаизе 8-зЬгезз 13 1езз ЬЬап .005000 (Итерации остановлены, поскольку 5-стресс меньше, чем 0,005.)

Величина стресса и для всех матриц:

B) Величины стресса и К.50 для каждой матрицы отдельно:

МаЬг1х ЗЬгезз К3<2
.000 1.000
.001 1 .000
АVе^адед (гтз) с^ег таЬг1сез ЗСгезз = .00070 КЗО = 1.00000

 

Эти величины свидетельствуют об отличной общей подгонке результатов, в том числе — для каждой матрицы отдельно. Следовательно, можно присту­пать к интерпретации результатов.

С) Координаты стимулов и субъективные веса для каждой матрицы:

    П1тепз1оп
    (Шкалы)
ЗЫши1из ЗЫши1из
ЫитЬег Ыате    
vi В. Вундт 0,6701 -1,1265
\2 Э. Титченер 0,2192 -1,1002
уз И. Сеченов 1,1847 1,1476
у4 Э. Торндайк -0,3482 1,0969
у5 М. Вертгеймер -1,7257 -0,0179
ЗиЬзесЬ ЫитЬег ЗиЬз есЬ Ие1дЬЬз
(Номера субъектов) (Индивидуальные веса)
0,2798 0,9601
0,9768 0,2142

О) График конфигурации стимулов в осях шкал:


 

 


о*4 0уЗ
О О О
0,5 смс 1 0,0 О) Е О -0,5
-1,0

~I I г -2-1 0 1

Р|теп5юп 1

1,0

 

 


Е) Конфигурация субъективных весов в осях шкал:


1,0 -
0,8- смс 1 0,6- ш Е О 0,4-
0,2 0,4 0,6 0,8 1,0 Р|теп5юп 1
□епуеа ЗиЬ)ес! оте1дп1з
0,2-

 

 


При МШ индивидуальных различий интерпретируются две группы резуль­татов: а) общее для группы испытуемых координатное представление срав­ниваемых объектов (общие точки зрения); б) субъективные (индивидуальные) веса общих точек зрения для каждого субъекта. На отрицательном полюсе первой шкалы расположена концепция М. Вертгеймера, затем, по мере воз­растания значений шкалы: Э. Торндайк, Э. Титченер, В. Вундт, И. Сеченов. Очевидно, что эта шкала отражает временные представления студентов о последовательности появления концепций: чем меньше значения по этой шкале, тем позже появилась концепция. Вторая шкала отражает, скорее, со­держательные представления студентов о концепциях: на положительном ее полюсе располагаются концепции, выражающие объективный подход к ана­лизу поведения (И. М. Сеченов, Э. Торндайк); на отрицательном полюсе — интроспективный подход к анализу сознания (В. Вундт, Э. Титченер).


Индивидуальные веса шкал показывают различия испытуемых по тому, насколько каждый из них разделяет общие (групповые) точки зрения. Для студента 1 преимущественное значение имеет содержательная характеристи­ка концепций (шкала 2) и в меньшей степени — последовательность их появ­ления (шкала 1). Студент 2 учитывает в большей степени последовательность появления концепций и почти полностью игнорирует их содержательное своеобразие.

МОДЕЛЬ

СУБЪЕКТИВНЫХ ПРЕДПОЧТЕНИЙ

Исходными данными для шкалирования предпочтений является матрица размерностью РхЫ, содержащая N строк — по одной для каждого субъекта, присваивающего номера Робъектам по степени предпочтения: от 1 — самому предпочитаемому до Р — наименее предпочтительному.

В соответствии с моделью предпочтений каждый субъект характеризуется идеальным объектом, а степень предпочтения стимула определяется его отли­чием от идеала. Дистанционная модель предпочтений основана на предполо­жении, что субъекты могут быть охарактеризованы координатами идеальных точек в едином пространстве. Это пространство задается шкалами, которые трактуются как критерии, по которым осуществляются предпочтения. Коор­дината х — то значение признака к, которое считает идеальным субъект 5. Все значения АГпризнаков определяют набор характеристик идеального объек­та. Соответственно, номер или ранг предпочтения определяется как степень отличия данного объекта от идеала — 8Й. Чем больше ранг предпочтения, тем меньше нравится объект, то есть тем дальше он от идеала.

к к = I

Формально неметрическая дистанционная модель предпочтений предпо­лагает выполнение следующих соотношений:

. < Зд => 4 < <1]5 для всех (/,/) субъекта ^ (18.3)

Первое соотношение обозначает, что для каждого субъекта есть своя моно­тонная функция /5, что избавляет от необходимости приписывать субъектам единую шкалу для субъективных предпочтений. Второе соотношение огра­ничивает координаты объектов х и идеальных точек хв искомом простран­стве так, чтобы сохранить порядковую информацию о соотношении объек­тов для каждого субъекта. Такой анализ называется условным по строке (строки соответствуют субъектам), в отличие от безусловного ограничения (по стро­кам и столбцам), применяемого в неметрическом шкалировании данных об индивидуальных различиях.


Программа неметрического шкалирования АЬ8САЬ, включенная в состав 8Р55, может выполнять и неметрический анализ предпочтений, если задать прямоугольную матрицу (гес1ап§и1аг) с количеством строк (го\у), соответству­ющим количеству субъектов, но не менее 4. Дополнительно необходимо за­дать «условность по строке» (Сопс1Шопа1: Яо\у) в соответствии с требованием выражения 18.3.

Критерии качества координатного представления объектов и правила вы­бора числа координат при анализе предпочтений те же, что в модели немет­рического МШ данных о различиях. Однако матрица координат объектов включает в себя и координаты идеальных точек для каждого субъекта. Ины­ми словами, конечный результат анализа предпочтений — это групповое про­странство признаков (шкал), в котором наряду с объектами предпочтения размещены идеальные точки субъектов. Интерпретация этих результатов ана­логична интерпретации результатов анализа различий.

ПРИМЕР 18.4_____________________________________________________________________

В упоминавшемся исследовании отношений студентов к учебным предметам (Ля­щенко С., Наследов А., 2001) изучались и их предпочтения. В одной из серий исследования студентам предлагалось упорядочить 14 предметов по степени пред­почтения стиля их преподавания. Исходные данные для 73 студентов обрабаты­вались при помощи многомерного шкалирования предпочтений. Результаты 3-шкального решения использовались для составления структурированных ин­тервью. Таким образом были выделены основные критерии предпочтений учеб­ных курсов с точки зрения стиля их преподавания. Ими оказались: 1 — «акаде­мичный — эмоциональный» стиль изложения материала; 2 — «диалогичный — монологичный» характер контакта с аудиторией; 3 — «доступная — сложная» ма­нера изложения материала.

ПРИМЕР 18.5_____________________________________________________________________

Исследовались критерии предпочтения студентами различных психологических концепций. Каждому из четырех студентов было предложено ранжировать по сте­пени предпочтения 6 концепций: 3. Фрейда, М. Вертгеймера, А. Адлера, Р. Кеттел- ла, Г. Айзенка и К. Левина (табл. 18.6), присваивая 1 наиболее и 6 наименее пред­почитаемой концепции.

Таблица 18.6

Ранги предпочтения студентами шести психологических концепций

  Концепции
Студенты 3. Фрейд М. Вертгеймер А. Адлер Р. Кеттелл Г. Айзенк К. Левин
  vi у2 уЗ у4 у5 уб

 

Обработка на компьютере

Для обработки воспользуемся данными примера 18.5. Исходные данные (Ба(а ЕсШог) содержатся в таблице, строки которой соответствуют субъектам, а столбцы — объектам предпочтений (в соответствии с таблицей 18.6).

1. ВыбираемАпа1уге > 8са1е > Ми1и(Ктеп§юпа1 8саНп§ (АЬ8САЬ)...

2. В открывшемся окне диалога переносим из левого в правое верхнее окно (УапаЫев) переменные, необходимые для шкалирования (VI, у2, уЗ, у4, у5, у6). Убеждаемся, что в поле 01$(апсе$ (Расстояния) точкой отмечено Оа(ааге сИ$(апсе$ (Данные — расстояния).

3. Необходимо задать тип матрицы различий. Нажав кнопку 8Ьаре... (Уточ­нить) вместо принятой по умолчанию 8^иа^е $утте(пс (Симметричная квад­ратная), отмечаем Кес(ап§и1аг (Прямоугольная). Указываем число строк, ко­торое должно соответствовать численности экспертов (испытуемых): 1ЧшпЬег оГготе: 4 (Количество строк). Нажимаем Сопйпие.

4. Нажимаем кнопку Мойе1... (Модель...) и задаем параметры модели шка­лирования. Для данной модели главный параметр СопйШопаШу (Условие под­гонки). Вместо заданного по умолчанию Ма(пх (Вся матрица) задаем Ко» (По строке). Убеждаемся, что в поле 8саНп§ тойе1 (Модель шкалирования) отме­чено ЕисНЛеап (1Ыапсе (Евклидово расстояние). Если в строках часто встреча­ются одинаковые ранги, то отмечаем флажком ШНе йей оЬзегуаиоп (Коррек­тировать связанные наблюдения) — для устранения влияния связей (повторов) в рангах.

Следующим параметром является количество шкал. Обычно следует по­лучить результаты для нескольких шкал и выбрать наилучшее из них — по величинам стресса и по отчетливости интерпретации. В данном случае у нас всего 6 объектов, поэтому вряд ли потребуется более двух шкал. Задаем 0>теп$юп$ (Шкалы) МЫтит: 2, Махшит: 2. После задания всех параметров модели нажимаем СопШше.

5. В основном окне диалога нажимаем ОрИопв (Опции) для задания пара­метров обработки и вывода результатов. В появившемся окне диалога внизу в поле Б1$р1ау (Выводить) отмечаем флажком Сгоир р1о1$> (Графики для всей груп­пы) — для графического отображения объектов в координатах шкал. В поле СгКепа (Критерии) указаны критерии для итераций по подгонке модели: 8-$(ге8$соп\ег§епсе: 0,001 (Величинасходимости 5-стресса), МЫтит$-$1ге$$ уа1ие: 0 , 005 (Минимальная величина з-стресса), МахнпитКегаиопз: 3 0 (Мак­симальное количество итераций). Эти величины можно не менять. В отно­шении этих величин руководствуемся теми же соображениями, что и при ре­ализации модели неметрического шкалирования.

После задания всех параметров обработки и вывода результатов нажимаем Соп1тие. Нажимаем ОК и получаем результаты.

6. Основные результаты МШ предпочтений.

А) «История» итераций, величины стресса и К§0:

1ЬегаЫоп ЫзЬогу Еог Ыте 2 Й1тепз10па1 зо1и(:1оп

(История итераций для 2-шкального решения.)

Уоипд'з З-зЬгезз Еогти1а 2 13 изе (Применена формула 2 8-стресса Юнга.)
ХЬегаЫоп (Итерация) З-зЬгезз (з-стресс) Шргсл/етеп!; (Улучшение)
0.02095  
0.02065 0.0003

ХЬегаЬз-ОПз зЬоррей Ьесаизе 5-зЬгезз 1тргс^етеп1; 1з 1езз ЬЬап .001000 (Итерации остановлены, поскольку улучшение 8-стресса меньше, чем 0,001.)

 

В) Величины стресса и К§0 для каждой строки отдельно:

ЗЬгезз Vа1иез аге Кгизка1'з зЬгезз Еогти1а 2. (Величина стресса вычислена по формуле 2 Краскала.)
МаЬггх ЗЬгезз КЗО
0.000 1.000
0.006 1.000
0.035 0.999
0.046 0.998

 

Величина стресса и К$0 для всех матриц:

Рог та1;г1х

(Для всей матрицы) ЗЫезз = .029 КЗО = .999.

История итераций показывает, что минимальная величина достигнута на втором шаге, что, на самом деле, встречается очень редко. Обычно при боль­шем количестве объектов проблемой является слишком большая величина стресса. Окончательная величина стресса (по формуле 2 Краскала) и величи­на К$0 свидетельствуют о высоком соответствии исходным данным всего ре­шения. Величины для каждой строки отдельно показывают высокое соответ­ствие исходным данным и результатов для каждого эксперта.

С) Координаты объектов (Со1ишп) и идеальных точек (Яо\у) в осях шкал:

ЗС1ти1из ЫитЬег ЗЫти1из Ыате
Со 1 шпп
vi 3. Фрейд 1.237 0.478
\2 М. Вертгеймер -1.9721 -0 .2875
уЗ А. Адлер 0.8707 0.4139
у4 Р. Кеттелл -0.2983 -1.2141
У5 Г. Айзенк 0.3989 -0.9137
У6 К. Левин -0.7627 1.2788
Ком
  -1.7744 0 . 0344
  1.1952 -0.1109
  0.7594 -1.1098
  0.3464 1.4308


Э) График конфигурации объектов и идеальных точек в осях шкал:

Оепуес! ЗЫти1из СопйдигаЫоп
Уб о го» 1 п о го» 4
оЛ МЛ о °го»2 у5 ° го»3 о

Г

-2-1 0 1 2 01тепзюп 1


 

Результаты анализа позволяют достаточно определенно интерпретировать основания предпочтений по координатам объектов. Шкала 1 интерпретиру­ется как дихотомия побуждений (3. Фрейд, А. Адлер) и познания (М. Верт­геймер). Шкала 2 противопоставляет концепции, рассматривающие лично­стные свойства (Р. Кеттелл, Г. Айзенк) и ситуативные условия (К. Левин) в качестве основных причин поведения.

1,51,0 см 0,5 с о 'ё 0,0 ш Е О -0,5 -1,0 -1,5

Координаты идеальных точек позволяют идентифицировать индивидуаль­ные субъективные предпочтения. Так, эксперт 1 предпочитает когнитивные концепции, а эксперт 2 — психоанализ.


Глава 19

КЛАСТЕРНЫЙ АНАЛИЗ

НАЗНАЧЕНИЕ

Кластерный анализ решает задачу построения классификации, то есть раз­деления исходного множества объектов на группы (классы, кластеры). При этом предполагается, что у исследователя нет исходных допущений ни о со­ставе классов, ни об их отличии друг от друга. Приступая к кластерному ана­лизу, исследователь располагает лишь информацией о характеристиках (при­знаках) для объектов, позволяющей судить о сходстве (различии) объектов, либо только данными об их попарном сходстве (различии). В литературе час­то встречаются синонимы кластерного анализа: автоматическая классифика­ция, таксономический анализ, анализ образов (без обучения).

Несмотря на то, что кластерный анализ известен относительно давно (впервые изложен Тгуоп в 1939 году), распространение эта группа методов получила существенно позже, чем другие многомерные методы, такие, как факторный анализ. Лишь после публикации книги «Начала численной так­сономии» биологами Р. Сокэл и П. Снит в 1963 году начинают появляться первые исследования с использованием этого метода. Тем не менее, до сих пор в психологии известны лишь единичные случаи удачного применения кластерного анализа, несмотря на его исключительную простоту. Вызывает удивление настойчивость, с которой психологи используют для решения простой задачи классификации (объектов, признаков) такой сложный ме­тод, как факторный анализ. Вместе с тем, как будет показано в этой главе, кластерный анализ не только гораздо проще и нагляднее решает эту задачу, но и имеет несомненное преимущество: результат его применения не свя­зан с потерей даже части исходной информации о различиях объектов или корреляции признаков.

Варианты кластерного анализа — это множество простых вычислительных процедур, используемых для классификации объектов. Классификация объек­тов — это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов. Более точно, кластерный анализ — это процедура упорядочивания объектов в срав­нительно однородные классы на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям.

Существует множество вариантов кластерного анализа, но наиболее ши­роко используются методы, объединенные общим названием иерархический кластерный анализ (ШегагсМсаI С1из1ег Апа1ут). В дальнейшем под кластер­ным анализом мы будем подразумевать именно эту группу методов. Рассмот­рим основной принцип иерархического кластерного анализа на примере.

ПРИМЕР 19.1__________________________________________________________

Предположим, 10 студентам предложили оценить проведенное с ними занятие по двум критериям: увлекательность (РгеГ) и полезность (11$е). Для оценки использо­валась 10-балльная шкала. Полученные данные (2 переменные для 10 студентов) графически представлены в виде графика двумерного рассеивания (рис. 19.1). Конечно, классификация объектов по результатам измерения всего двух перемен­ных не требует применения кластерного анализа: группировки и так можно выде­лить путем визуального анализа. Так, в данном случае наблюдаются четыре груп­пировки: 9, 2, 3 — занятие полезное, но не увлекательное; 1, 10, 8 — занятие увлекательное, но бесполезное; 5,1 — занятие и полезное и увлекательное; 4, 6 — занятие умеренно увлекательное и умеренно полезное. Даже для трех переменных можно обойтись и без кластерного анализа, так как компьютерные программы по­зволяют строить трехмерные графики. Но для 4 и более переменных визуальный анализданных практически невозможен. Тем не менее, общий принцип классифи­кации объектов при помощи кластерного анализа не зависит от количества изме­ренных признаков, так как непосредственной информацией для этого метода яв­ляются различия между классифицируемыми объектами.


9,00 8,00 7,00 6,00 2> О. 5,00 4,00 3,00 2,00

Рис. 19.1. График двумерного рассеивания переменных «увлекательность» (Рге!) и «польза» (У$е) для 10 студентов
2,00 3,00

5,00 6,00 иве

 

Кластерный анализ объектов, для которых заданы значения количественных при­знаков начинается с расчета различий для всех пар объектов. Пользователь может выбрать по своему усмотрению меру различия, обзор которых приведен в соответ­ствующем разделе главы 18. В качестве меры различия выбирается расстояние между объектами в Р-мерном пространстве признаков, чаще всего — евклидово расстоя­ние или его квадрат. В данном случае Р= 2 и евклидово расстояние между объекта­ми <иу определяется формулой:

где х — это значения одного, а у — другого признака.

На первом шаге кластерного анализа путем перебора всех пар объектов определяется пара (или пары) наиболее близких объектов, которые объединяются в первичные кластеры. Далее на каждом шаге к каждому первичному кластеру присоединяется объект (кластер), который к нему ближе. Этот процесс повторяется до тех пор, пока все объекты не будут объединены в один кластер. Критерий объединения объектов (кластеров) может быть разным и определяется методом кластерного анализа. Основным результатом применения иерархического кластерного анализа является дендрограмлш — графическое изображение последовательности объединения объек­тов в кластеры. Для данного примера дендрограмма приведена на рис. 19.2.

Рис. 19.2. Дендрограмма для 10 студентов (метод средней связи)

 

На дендрограмме номера объектов следуют по вертикали. По горизонтали отмече­ны расстояния (в условных единицах), на которых происходит объединение объек­тов в кластеры. На первых шагах происходит образование кластеров: (3,9,2) и (5,7). Далее образуется кластер (8, 10, 1) — расстояния между этими объектами больше, чем между теми, которые были объединены на предыдущих шагах. Следующий кла­стер — (4, 6). Далее в один кластер объединяются кластеры (5, 7) и (4, 6), и т. д. Процесс заканчивается объединением всех объектов в один кластер. Количество кластеров определяет по дендрограмме сам исследователь. Так, судя по дендро­грамме, в данном случае можно выделить три или четыре кластера.

Как видно из примера, кластерный анализ — это комбинаторная процеду­ра, имеющая простой и наглядный результат. Широта возможного примене­ния кластерного анализа очевидна настолько же, насколько очевиден и его смысл. Классифицирование или разделение исходного множества объектов на различающиеся группы — всегда первый шаг в любой умственной деятель­ности, предваряющий поиск причин обнаруженных различий.

Можно указать ряд задач, при решении которых кластерный анализ явля­ется более эффективным, чем другие многомерные методы:

□ разбиение совокупности испытуемых на группы по измеренным призна­кам с целью дальнейшей проверки причин межгрупповых различий по внешним критериям, например, проверка гипотез о том, проявляются ли типологические различия между испытуемыми по измеренным признакам;

□ применение кластерного анализа как значительно более простого и на­глядного аналога факторного анализа, когда ставится только задача груп­пировки признаков на основе их корреляции;

П классификация объектов на основе непосредственных оценок разли­чий между ними (например, исследование социальной структуры кол­лектива по данным социометрии — по выявленным межличностным предпочтениям).

Несмотря на различие целей проведения кластерного анализа, можно вы­делить общую его последовательность как ряд относительно самостоятель­ных шагов, играющих существенную роль в прийтадном исследовании:

1. Отбор объектов для кластеризации. Объектами могут быть, в зависимо­сти от цели исследования: а) испытуемые; б) объекты, которые оцени­ваются испытуемыми; в) признаки, измеренные на выборке испытуемых.

2. Определение множества переменных, по которым будут различаться объек­ты кластеризации. Для испытуемых — это набор измеренных призна­ков, для оцениваемых объектов — субъекты оценки, для признаков — испытуемые. Если в качестве исходных данных предполагается исполь­зовать результаты попарного сравнения объектов, необходимо четко определить критерии этого сравнения испытуемыми (экспертами).

3. Определение меры различия между объектами кластеризации. Это первая проблема, которая является специфичной для методов анализа разли­чий: многомерного шкалирования и кластерного анализа. Применяе­мые меры различия и требования к ним подробно изложены в главе 18 (раздел «Меры различия»),

4. Выбор и применение метода классификации для создания групп сходных объектов. Это вторая и центральная проблема кластерного анализа. Ее весомость связана с тем, что разные методы кластеризации порождают разные группировки для одних и тех же данных. Хотя анализ и заключа­ется в обнаружении структуры, наделе в процессе кластеризации струк­тура привносится в данные, и эта привнесенная структура может не со­впадать с реальной.

5. Проверка достоверности разбиения на классы.


Последний этап не всегда необходим, например, при выявлении социаль­ной структуры группы. Тем не менее следует помнить, что кластерный анализ
всегда разобьет совокупность объектов на классы, независимо от того, суще­ствуют ли они на самом деле. Поэтому бесполезно доказывать существенность разбиения на классы, например, на основании достоверности различий между классами по признакам, включенным в анализ. Обычно проверяют устойчи­вость группировки — на повторной идентичной выборке объектов. Значимость разбиения проверяют по внешним критериям — признакам, не вошедшим в анализ.

МЕТОДЫ КЛАСТЕРНОГО АНАЛИЗА

Непосредственными данными для применения любого метода кластери­зации является матрица различий между всеми парами объектов. Определе­ние или задание меры различия является первым и необходимым шагом кла­стерного анализа. Поэтому прежде, чем продолжить чтение, убедитесь, что вы уже знакомы с основными мерами различий, с требованиями к ним и со способами их получения (глава 18, раздел «Меры различия»).

Из всего множества методов кластеризации наиболее распространены так называемые иерархические агломеративные методы. Название указывает на то, что классификация осуществляется путем последовательного объединения (аг­ломерации) объектов в группы, оказывающиеся в результате иерархически орга­низованными. Эти методы — очень простые комбинаторные процедуры, отличающиеся кри­терием объединения объектов в кластеры.

Критерий объединения многократно при­меняется ко всей матрице попарных расстоя­ний между объектами. На первых шагах объе­диняются наиболее близкие объекты, нахо­дящиеся на одном уровне сходства. Затем поочередно присоединяются остальные объ­екты, пока все они не объединятся в один боль­шой кластер. Результат работы метода представ­ляется графически в виде дендрограммы — вет­вистого древовидного графика.

Существуют различные методы иерархичес­кого кластерного анализа, в частности, в прог­рамме 8Р88 предлагается 7 методов. Каждый ме­тод дает свои результаты кластеризации, но три из них являются наиболее типичными. Поэто­му рассмотрим результаты применения этих ме­тодов к одним и тем же данным из примера 19.1.

..пока все они не объединятся в один большой кластер

БепсЗгодгат изл.пд Зл.пд1е Ыпкаде

Кевса1е<3 ВхзЬапсе С1изСег СотЫпе

С А 3 Е 0 5 10 15 20 25

ЬаЬе1 Ыит Н-------------- 1------------ I--------------- 1------------- 1------------- 1-

3 —

9---------------------------------------------------------------------------------

2 —I

' з------------------------------------ !

8 -------------------- -------------------------------------------------------------------------------------

10--------------------------

1 -------------- ----------------------------------------------------

4 ------------------------------------

6 ----------------------------------------------------

Рис. 19.3. Дендрограмма для 10 студентов (метод одиночной связи)

Метод одиночной связи (5т§1е Ыпка§е) — наиболее понятный метод, кото­рый часто называют методом «ближайшего соседа» {Ыеагев! ~Ые'1фЪог). Алго­ритм начинается с поиска двух наиболее близких объектов, пара которых об­разует первичный кластер. Каждый последующий объект присоединяется к тому кластеру, к одному из объектов которого он ближе.

На рис. 19.3 приведен результат применения метода. Сопоставляя эту ден- дрограмму с рис. 19.1, можно заметить, что объект 4 присоединяется к клас­теру (8, 10, 1) и на том же расстоянии — к объекту 6 в связи с тем, что рассто­яние от объекта 4 до объекта 6 такое же, что и до объекта 1. Из рисунка видно, что метод имеет тенденцию к образованию длинных кластеров «цепочного» вида. Таким образом, метод имеет тенденцию образовывать небольшое число крупных кластеров. К особенностям метода можно отнести и то, что результа­ты его применения часто не дают возможности определить, как много клас­теров находится в данных.

Метод полной связи (Сошр1е1е 1лпка§е) часто называют методом «дальнего соседа» (Риг(Нез( Ые1фЪог). Правило объединения этого метода подразумева­ет, что новый объект присоединяется к тому кластеру, самый далекий элемент которого находится ближе к новому объекту, чем самые далекие элементы дру­гих кластеров. Это правило является противоположным предыдущему и бо­лее жестким. Поэтому здесь наблюдается тенденция к выделению большего числа компактных кластеров, состоящих из наиболее похожих элементов.

Сравним результат применения метода полной связи (рис. 19.4), метода одиночной связи (рис. 19.3) и фактическую конфигурацию объектов (рис. 19.2). Различия в работе методов проявляются прежде всего в отношении объектов 4 и 6. Метод полной связи объединяет их в отдельный кластер и со­единяет с кластером (5, 7) раньше, чем с кластером (8, 10, 1) — в отличие от метода одиночной связи. Объект 4 присоединяется сначала к объекту 6, пото-


Бепйгодгат изхпд Сотр1еСе Ыпкаде

25 ---- Н

Кезса1е<3 01в1:апсе С1ивСег СошЫпе

С А 3 Е о 5 10 15 20 ЬаЬе! Шв Н- 1------- \------- * 1—-


 

 


3 9 2 8

10 1

5 7

Т
иг
т

 

 


Рис.19.4. Дендрограмма для 10 студентов (метод полной связи)

му что этот последний к нему ближе, чем самый дальний объект кластера (8, 10, 1). На этом же основании кластер (4, 6) присоединяется к кластеру (5, 7), по­тому что самый дальний объект 6 кластера (4, 6) ближе к самому дальнему объекту 7 кластера (5, 7), чем к самому дальнему объекту 8 кластера (8, 10, 1).









Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:


©2015- 2018 zdamsam.ru Размещенные материалы защищены законодательством РФ.