Сдам Сам

ПОЛЕЗНОЕ


КАТЕГОРИИ







Распределение признаков по факторам (в зависимости от максимальных весов)





 

№ фактора № признака Признак, имеющий максимальный вес по данному фактору Коэффициент связи между показателем и фактором  
I Число врачей на 1000 сельских жителей 0,90  
Оборот розничной торговли на сельского жителя -0,89  
 
Средняя оплата рабочего дня в совхозах 0,88  
Число кинопосещений на одного жителя в год 0,84  
 
Число медработников на 1000 сельских жителей 0,82  
Изменение численности рабочей силы совхозов 0,74  
Потребление электроэнергии в быту 0,67  
Обеспеченность жильем за счет совхозов 0,66  
Доля молодежи среди сельского населения 0,66  
Число учителей на 1000 сельских жителей 0,58  
Процент детей в детских учреждениях 0,34  
II Естественный прирост населения, % 0,68  
Доля лиц со средним и высшим образованием 0,60  
Плотность сельского населения 0,60  
Плотность железных и шоссейных дорог 0,57  
Доля лиц коренной национальности 0,54  
III Процент домов без электричества 0,67  
Число рабочих дней в году на работника 0,66  
Доля женщин среди работников совхозов 0,61  
Процент сельского населения в районе 0,52  
IV Средний размер населенного пункта 0,67  
Средний доход от личного подсобного хозяйства 0,43  

 

что в миграции играют роль два главных фактора. Первый связан с материальным и культурным благосостоянием сельского населения района. Второй — с уровнем жилищно-бытового строительства.



Другим примером применения факторного анализа может служить анализ структуры признакового пространства, описывающего условия труда и жизни сельского населения различных районов[158]. Для испытания было отобрано 22 показателя. Весь анализ можно разделить на четыре стадии. Первая стадия — получение так называемой матрицы интеркорреляций.

Вторая стадия — это последовательное преобразование исходной матрицы и выполнение расчетов, направленных на «извлечение» независимых факторов, характеризующих внутреннюю структуру изучаемого признакового пространства.

Третья стадия представляет собою специальную операцию — поворот осей, которая результируется в составлении окончательной таблицы данных связи между признаками и факторами. Рассматривая, как улучшились качественные характеристики матрицы в результате поворота осей, авторы Т. И. Заславская и Е. В. Виноградова делают следующее заключение: «Несмотря на то, что использованные методы поворота осей носили приближенный характер и не обеспечивали оптимального результата, эффективность этой операции очевидна. Количество нежелательных средних весов уменьшилось почти вдвое, заметно повысилось число показателей, имеющих четко выраженные максимумы по отдельным факторам при малых значениях весов по другим. Показатели более равномерно распределились по факторам, что облегчило возможность предметного толкования последних»[159].

Последняя стадия факторного анализа заключается в трактовке результатов. Анализируя данные о распределении признаков по факторам в зависимости от максимальных весов, сведенные в специальную таблицу, авторы дают специфическое толкование каждому из четырех выделенных факторов. Тем самым каждый из выделяемых факторов получает содержательную характеристику через систему отношений к заданным внешним признакам. Первый фактор, объединяющий признаки 29, 49, 2, 42, 31, 1, 13, 12, 25, 47, 41, характеризуется авторами как уровень материально-бытовых и социально-культурных условий жизни сельского населения; второй, объединяющий признаки 57, 26, 7, 11, 10,— как структура сельского населения районов; третий, объединяющий признаки 15, 3, 53, 14, — как уровень экономического и технического развития района; и, наконец, четвертый, объединяющий признаки 6 и 4,— как характер сельского расселения (табл. 14).

 

Во всех рассмотренных случаях использовались корреляции между переменными. Математически совершенно равноправна операция использования корреляций между лицами, т.е. между строками в эмпирической матрице. Это так называемая Q-техника, в отличие от наиболее употребительной R-техники. Q-техника приводит к нахождению факторов среди лиц (объектов), т.е. лица объединяются в группы-факторы. Эта техника весьма перспективна в социологии, хотя она и сопряжена с более трудоемкими операциями в сравнении с R-техникой[160].

Применение факторного анализа связано с математическими трудностями и с вопросом содержательной интерпретации факторов. Преодолеть эти трудности можно только широким экспериментированием по трем направлениям, применяя различные методы факторизации к разным выборкам, разным лицам и разным проблемам, что в целом и делается в большей части современных социологических исследований. По словам известного математика и психолога П. Хорста, “многие другие возможности применения факторного анализа, без сомнения, будут обнаружены в будущем, потому что роль факторного анализа значительна в систематическом научном исследовании во всех областях; его использование будет расширяться, его техника улучшаться, методы анализа – становиться более общими и доступными благодаря вычислительным машинам с большими скоростями работы”[161].

 

Основные понятия латентного анализа

Латентный анализ был развит П. Лазарсфельдом во второй половине 40-х годов ХХ в. в процессе изучения социальных установок американских солдат. Метод впервые был изложен в четвертом томе серии “Исследования по социальной психологии во второй мировой войне[162].

Существо метода заключается в следующем. Предполагается, как и в теории тестов, что исследуемая социальная установка представляет собой в числовом отношении некоторый гипотетический (латентный) континуум. Индивиды будут как-то располагаться на этом континууме в соответствии с определенным значением своей социальной установки. Индивидам задаются

 

 

вопросы, и ответы на вопросы выражают как бы внешнюю эмпирическую структуру исследуемого социального явления.

Задача метода – в установлении внутренней латентной структуры, которая обусловливает именно данный характер ответов. Первоначально для простоты будем считать вопросы дихотомическими, т.е. ответы на них альтернативны, типа “да – нет”. Вообще говоря, метод не связан с этим ограничением. На исследуемом континууме мы не можем ввести единицу измерения и начало отсчета. Поэтому в лучшем случае мы будем получать ординальную шкалу измерения. При исследовании данной социальной установки можно давать различные наборы вопросов. Вполне понятно, что вовсе необязательно при каждой эмпирической структуре (она, естественно, будет различна) индивид будет обладать одной и той же латентной структурой, т.е. быть в той же самой точке континуума. Не существует детерминистского проецирования эмпирической структуры (ответов) на латентную структуру, а можно попытаться определить только вероятность, с какой данная структура ответов соответствует определенной точке латентного континуума.

Вводится так называемая функция i-го вопроса . Это вероятность положительного ответа индивида на i-й вопрос, при условии, если индивид находится в точке x латентного континуума. Функция вопроса (в английской транскрипции – traceline) введена Лазарсфельдом по аналогии с операционной характеристикой теории тестов и является вероятностной характеристикой вопроса. Можно выделить три типа вопроса по виду их функций (рис. 16).

Тип 1 – это такие вопросы, когда с увеличением значений латентной переменной вероятность ответить на него положительно увеличивается, с уменьшением – уменьшается. Пока мы не обращаем внимания на форму кривой.

Тип II – зависимость обратная: с увеличением исследуемой переменной вероятность положительного ответа уменьшается.

Тип III – вопросы таковы, что наибольшая вероятность ответить на них положительно при среднем значении переменной; вероятность уменьшается при увеличении и уменьшении исследуемой переменной.

Далее вводится так называемый маргинал i-го вопроса – . Это число лиц, которые положительно ответили на i-й вопрос.

Наконец, поскольку задача вероятностная, необходимо найти закон распределения лиц на континууме, т.е. плотность вероятности .

Таким образом, нам даны и вопросов (дихотомических), введены величины:

 

 

– функции вопросов;

– маргиналы вопросов;

– закон распределения лиц на латентном континууме;

– число лиц в интервале х и x+dx;

– число лиц в интервале х и x+dx, которые положительно ответили на i-й вопрос;

– число лиц на всем континууме, которые положительно ответили на i-й вопрос, т.е. это число равно маргиналу –известной величине.

Отсюда основное расчетное уравнение латентного анализа:

Слева – эмпирические переменные (которые мы получаем в опыте), справа – латентные переменные, которые нам неизвестны. Цель исследования – нахождение функции .

 

Вводится основное математическое допущение, “условие локальной независимости”. Оно заключается в том, что если взяты два вопроса, то для индивида в точке Х вероятность положительно ответить одновременно на оба вопроса, которую обозначим , равна произведению вероятностей положительного ответа на каждый вопрос:

(2)

В общем виде, если взято k вопросов, уравнение (2) принимает вид

(3)

 

 

В случае уравнения (1) мы для n вопросов получим следующую систему уравнений:

, (4)

где – все наборы индексов i, j...

Общего решения эта система уравнений не имеет. В зависимости от условий, налагаемых на функции, получаются те или иные модификации основного расчетного уравнения, которые называются моделями латентного анализа.

Некоторые модели допускают решение и в настоящее время все интенсивнее проникают в практику социологического измерения.

Рассмотрим различные варианты соотношения эмпирических и латентных переменных. Существуют следующие важные комбинации:

Тип I – это наиболее общая и сильная модель латентного анализа. Она может получиться в том случае, если на входе будут стоять качественные эмпирические переменные, а на выходе –количественные латентные переменные, т.е. из данных, обладающих весьма малой информацией, мы получаем весьма богатую информацию. Грубо говоря, мы задаем дихотомические вопросы (номинальная шкала измерения) респондентам в отношении удовлетворенности жизнью, а получаем по меньшей мере интервальную шкалу удовлетворенности.

Тип II – качественные эмпирические и качественные латентные переменные; наиболее разработанный тип моделей – модели так называемых латентных классов, когда все респонденты расположены не непрерывно на латентном континууме, а в отдельных точках, классах. Эти модели наиболее разработаны, во-первых, для дихотомических вопросов, во-вторых, для ограниченного числа вопросов и классов. Под классами понимается простая классификация или номинальная шкала измерения. Делаются в настоящее время попытки получить модель упорядоченных классов.

Тип III – количественные эмпирические и количественные латентные переменные. Эта модель латентного анализа имеет определенный аналог с факторным анализом.

Тип IV – количественные эмпирические и качественные латентные переменные. Это так называемая модель латентно-профильного анализа, разработанного Гибсоном.

Лазарсфельд предложил обобщить латентный анализ на случай многомерного латентного континуума. Для большей наглядности

 

 

приведем следующий пример. Когда мы исследуем удовлетворенность жизнью, то задаем определенные вопросы и пытаемся решить соответствующее расчетное уравнение латентного анализа, считая, что удовлетворенность жизнью представляет собой некоторую одномерную величину. Это понятие можно уточнить, если считать, что она – результат, к примеру, удовлетворенности работой и удовлетворенности личной жизнью. Тогда наша первоначальная латентная переменная заменяется двумя тоже латентными переменными, которые мы и будем искать.

В этом случае мы имеем не одномерный континуум – линию, на которой мы строили функции вопросов и функции распределения лиц, а двумерный континуум – плоскость. На ней будут уже поверхности – двумерные функции вопросов и двумерные функции распределения лиц.

Если обозначить одну латентную переменную х, а другую – у,

то основное расчетное уравнение (4) для двумерного случая перейдет в

(5)

где –набор индексов i, j...

В последнее время делаются попытки применить латентный анализ к исследованию процессов. В частности, предложена модель применения метода латентных классов к простейшему марковскому процессу повторного поведения.

Существо модели латентных классов заключается в том, что латентная переменная считается прерывной[163]. Это означает, что все респонденты расположены в дискретных точках – классах. Будем считать, что задано n дихотомических вопросов, а респонденты расположены в m латентных классах. Для этого случая преобразуем основное уравнение (4) .

Вместо непрерывной функции плотности будем иметь т частот, которые соответствуют относительным объемам латентных классов.

Обозначим их , =1, 2, ..., т. Вместо непрерывного графика i-го вопроса получатся отдельные вероятности для каждого класса, которые обозначим . Это вероятность положительного ответа на i-й вопрос в классе . Условие локальной независимости (3) будет иметь вид

. (6)

 

 

Основные уравнения примут вид

=1, ..., т. (7)

где – наборы индексов.

Важная сторона модели латентных классов –число эмпирических данных и число латентных (неизвестных) переменных. Как известно, необходимым условием существования решения системы латентных уравнений является тот факт, что число неизвестных должно быть не больше числа уравнений. Число уравнений 2".

Имеем

(7*)

В 1-й строке – 1 уравнение ( );

во 2-й строке – n уравнений

в 3-й строке – уравнений .

. . . . . . . . . . . . . . . . . . . . . . .

В i-й строке – уравнений. Всего n строк, и, следовательно, общее число уравнений равно сумме биноминальных коэффициентов:

.Число неизвестных латентных параметров равно m(n + 1), поскольку mn –число латентных вероятностей и т –число латентных частот в классах.

Таким образом, необходимое (но недостаточное) условие разрешимости модели латентных классов соблюдено –

. (8)

Если окажется, что , то необходимы такие дополнительные условия, налагаемые на эмпирические переменные, чтобы

(9)

Только в этом случае модель имеет решение. Условия, налагаемые на эмпирические данные, называются условиями редуцируемости.

 

 

Из нескольких других оснований, связанных с решением расчетных уравнений, можно получить, что

(8')

Объединяя условия (8) и (8'), получаем выражение, которое дает значение наименьшего числа вопросов:

(8")

Очевидно, что модель латентных классов может иметь практическое значение только при небольшом числе вопросов. Дело здесь даже не в том, что это приведет к огромной вычислительной работе. Можно легко увидеть, уравнение (9) выполняется для и . Проведем вычисления по всем этапам латентного анализа для этого случая.

Основные уравнения (7) примут вид

(10)

Или в развернутом виде:

 

 

и мы имеем уравнение частот:

Всего восемь уравнений и восемь неизвестных; тем самым можно найти все восемь неизвестных параметров:

Весьма важной задачей латентного анализа является вычисление условных вероятностей. Последняя означает вероятность того, что индивид с данным вариантом ответа попадает в i-й класс:

из обшей формулы Бейесса

 

 

Лица тех вариантов ответов, у которых попадают в один класс, а у которых – в другой класс (в случае двух классов). Эта ситуация сходна с операцией отнесения к факторам в факторном анализе.

Для решения уравнений модели латентных классов Лазарсфельд развил специальную алгебру, так называемую алгебру дихотомических систем. Основная идея решения вытекает из рассмотрения четырехклеточной таблицы.

 

  + i-й – вопрос
j-й вопрос +
   

 

 

где – относительное число лиц, которые положительно ответили на i-й и j-й вопросы; –число лиц, которые положительно ответили на j-й вопрос и отрицательно – на i-й; – число лиц, которые положительно ответили на i-й вопрос и отрицательно – на j-й; – число лиц, отрицательно ответивших на оба вопроса.

Рассмотрим определитель

 

Поскольку из таблицы

то имеем

Назовем определитель [ij]произведением двух вопросов – i-го и j-го. На этом определителе основываются три меры связи между

 

l47

 

дихотомическими вопросами четырехпольной таблицы:

; .

Для трех вопросов – i, j, k – введем понятие условного произведения .

Выразим неизвестные параметры системы через определители, значения которых известны на основе эмпирических данных. Имеем

.

 

Представим последний определитель как произведение таких определителей:

.

Следует отметить, что, по крайней мере, один определитель [ij](ij = 1, 2, 3) не равен нулю; в противном случае все три вопроса независимы и не имеют никакого отношения к исследуемому явлению.

Введем обозначение:

i = 1, 2, 3 .

Соберем вместе все имеющиеся уравнения для нашего случая трех вопросов и двух латентных классов:

(I)

(II)

(III)

. (IV)

Рассмотрим величину

или

.

Но из (IV) .

 

 

Отсюда

.

Следовательно, и являются корнями некоторого квадратного уравнения

. (11)

Мы положили, что и ищем параметры для третьего вопроса (в случае, если , то мы будем искать параметры такого вопроса, где определитель других двух не равен нулю).

Как только и найдены, все остальные параметры можно найти без труда.

Имеем, по определению,

(12)

Получаем и .

Далее имеем две системы линейных уравнений:

(13)

(14)

из которых получаем , , , .

Проводя вычисления уравнений (11) – (14), получаем значения маргиналов для классов, т.е.

, , , , , .

Зная эти величины, можно получить частоты вариантов ответов для классов. Например, если берем ответный вариант – + –,то его частота в классе 1 равна

, где а для класса 2 соответственно равна

, где .

Таким образом последовательно получаем все частоты вариантов ответов.

Основное расчетное уравнение допускает возможность решения при определенных ограничениях, наложенных не на , а на функцию . Допустим, что функции вопросов выражаются

 

 

некоторыми полиномами

В общем случае – степенью k. Для простоты рассмотрим только случаи k =1 и k=2, т.е. когда функции вопросов – прямые и параболы. Прежде всего возьмем случай k= l:

из(1)

.

Интегралы суть моменты функции :

.

Далее, условия локальной независимости:

.

Можно заметить, что для двух вопросов будет шесть неизвестных и три уравнения; для трех вопросов – восемь неизвестных и семь уравнений; для четырех вопросов – десять неизвестных и 16 уравнений.

Аналогичные выкладки можно произвести для случая квадратной функции вопросов:

 

l50

 

.

Имеем .

Оказывается, что

, где .

Аналогично

Введем величину

.

Тогда можно выразить коэффициенты линейной функции вопроса на основании эмпирических данных и :

.

Два первых момента – средняя и дисперсия – не определяются. Полагаем их равными соответственно нулю и единице. В таком случае можно легко определить третий момент функции :

,

где

.

Зная функции вопросов, можно получить все последующие моменты .Например, с помощью имеем выражение

изкоторого легко определяется . Добавляя уравнения для других совместных частот, получим моменты высших порядков, и таким образом будет определена.

 

 

Причинный анализ

Существо проблемы причинного анализа можно представить следующим образом. Имеет место какое-либо социальное явление, которое характеризуется переменной х. Оно зависит и причинно обусловлено другими данными социальными явлениями, характеризуемыми соответственно переменными y, z и т.д. Требуется определить степень этой зависимости. Быть может, переменные y, z не составляют все влияние на х, и тогда не учтенное в данном наблюдении влияние обозначим х. Переменные х могут сами, в свою очередь, быть связаны между собой. Быть может, что некоторые из переменных слабо связаны или не прямо связаны с х. Необходимо оставить только существенные связи. В социологии проблему такого анализа эмпирических данных впервые начал решать Э. Дюркгейм, следуя миллевской традиции причинного вывода и весьма скрупулезно используя правило сопутствующих изменений из массы статистических данных осамоубийстве.

Между двумя переменными возможны такие структурные отношения:

(х обусловливает у)

(у обусловливает х)

(взаимное воздействие)

(нет связи)

Структурные отношения для трех переменных см. на рис. 17.

Для последних двух случаев может оказаться, что

, а ,

и из эмпирических данных нельзя будет решить, какая здесь структура.

Коэффициент корреляции между х и у не равен нулю ( ) и означает, что между х и у есть связь. Частный коэффициент корреляции между х и у при постоянном z равен нулю и означает, что связь между х и у обусловлена не их собственным воздействием, а действием переменной z (рис. 18).

Для этих случаев ( ) и ( ) частный коэффициент корреляции между х и у при постоянном z равен нулю. Случай ( ) есть так называемая ложная корреляция.

Только анализ причинных связей между переменными может позволить выявить структуру данной эмпирической системы переменных.

В первые десятилетия ХХв. обостряется интерес к проблеме причинности. С одной стороны, он обусловлен развитием квантовой

 

 

физики в связи с соотношением динамических и статистических закономерностей и выявлением ограниченности лапласовского детерминизма в рамках действующей силовой причинности. С другой стороны, этот интерес вызван развитием эмпирических неэкспериментальных наук – демографии, эконометрики, социологии. Оно привело красширению представлений о причинности, в какой-то мере – возврату к Аристотелю. В физике, естествознании причинность понималась как действующая причина, силовое взаимодействие. Эконометрика показала существование также иной причины, связанной с нормой, правилом, или «программной обусловленностью»[164].

 

Эконометрика стала, по словам известного шведского специалиста Г. Уолда[165], пионером в изучении эмпирических неэкспериментальных данных.

Именно с эконометрикой, а затем с социологией наряду с квантовой механикой связано возрождение интереса кпроблеме причинности. Вопрос, касающийся эмпирических данных в неэкспериментальной ситуации, впервые поставил А. Курно в отношении цены, функций спроса и предложений в условиях свободной конкуренции на рынке. Затем это получило развитие в системе уравнений равновесия Вальраса, «закона Парето», гарвардском барометре, большом числе работ по построению функций спроса и производственных функций. В этих экономических исследованиях анализировались эмпирические данные средствами математической статистики. Если при исследовании плодородия почвы или качества удобрений статистические методы применяются

 

 

и были выработаны в экспериментальной ситуации, при которой специальным выбором исследуемых участков почвы можно было изолировать действие ряда фактов, чтобы проконтролировать исследуемый фактор, то в эконометрике столкнулись с эмпирической неэкспериментальной ситуацией. Проблема здесь упирается в наличие сложной системы множественных связей, каждая из которых не может быть изолирована и проконтролирована в эксперименте. Чтобы разрубить этот узел, эконометрика обратилась к понятию причинности только не в современном физическом смысле, а скорее, в аристотелевском понимании и ввела понятие причинных моделей[166] (первоначально задача стояла в вы- явлении связей между системой эмпирических данных). Можно написать структурные уравнения между этими переменными и полученную систему решать методом наименьших квадратов. Оказывается, что система структурных уравнений решается, если выделены так называемые экзогенные переменные, т.е. переменные, которые не определяются в данной системе, и так называемые эндогенные переменные, определяемые в данной системе[167].

Эконометрика связана с неэкспериментальным построением моделей. Дуализм экспериментального и неэкспериментального построения уходит в глубь научного метода. Экспериментальные модели предиктивны. Неэкспериментальный метод, развитый в эконометрике, сталкивается с множеством проблем на всех уровнях, от уровня самых общих оснований научного метода до специальных технических проблем. Мы остановимся на двух ключевых проблемах. Первая относится к научной эволюции от детерминистских моделей к стохастическим. Статистическая картина иногда вызвана внешними причинами – ошибками наблюдений, иногда внутренними. В обоих случаях важна проблема «выбора регрессии». Проблема стохастических моделей возникла как проблема Макпранга. Проблема Макпранга разрешается, если ввести причинные отношения. Функция спроса есть причинно- следственное отношение с ценой в качестве причины и спросом в качестве следствия. Спрос обусловливается изменением цены и выражается уравнением регрессии спроса на цену. Механизм ценообразования включает и спрос потребителя, и предложение производителя и не является просто обратным отношением функции спроса. В итоге выбор регрессии есть выбор между причинными моделями, а выбор между моделями определяет выбор между регрессиями.

 

 

Вторая проблема связана с различием причинных и непричинных моделей предсказания. Неэкспериментальные модели основываются на прошлых наблюдениях, и модель суммирует регулярности, наблюдаемые в прошлом. В прогнозной модели прошлые регулярности сохраняются в будущем. Прогноз в отношении неэкспериментального построения модели ес









Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:


©2015- 2019 zdamsam.ru Размещенные материалы защищены законодательством РФ.