Системный подход к статистическому анализу эмпирических данных

Многомерный статистический анализ является основным аппаратом выявления свернутой научной информации в большом массиве первичных данных. Современная вычислительная техника позволяет реализовать практически все методы многомерного статистического анализа, причем без существенного ограничения объема выборки и пространства признаков.

Однако методологические вопросы применения арсенала математических средств для обработки первичной информации разрабатываются только на самом общем уровне, без учета конкретных особенностей реального исследования. В результате возникают такие проблемы, как выбор конкретного метода обработки данных, соотношения количественного и качественного анализов, формы представления результатов количественного анализа и многие другие. Вследствие неразработанности подобных вопросов социолог иногда использует тот или иной метод анализа данных не потому, что он наиболее целесообразен, а лишь в силу его доступности. В иных исследованиях самым серьезным образом обсуждаются корреляционные связи признаков при коэффициенте корреляции 0,10-0,20; разница в распределениях оценок признаков порядка 5% подвергается качественной интерпретации. Можно найти и другие примеры подобной методологической несостоятельности применения математических методов в социологии.

С методологической точки зрения важно учесть, что математические модели в какой-то степени индифферентны к содержанию науки только до их приложения к этой науке; в ходе применения они отражают специфику этих приложений. Например, нормальное распределение оценок переменной имеет место, если данная переменная обусловливается многими факторами, каждый из которых оказывает небольшое влияние на изучаемую переменную. Пока речь идет, скажем, о биологических явлениях это условие в целом оправданно. Но принятие предположения в нормальном распределении социальных переменных ведет к отрицанию роли одного ведущего фактора – сознательного управления социальными процессами. Не случайно социологи редко получают данные, в достаточной степени соответствующие закону нормального распределения.

Строгое обоснование математических моделей включает предположение, что данные, к которым они прилагаются, достаточно точные. Между тем первичная информация о социальном явлении, подвергаемая статистическому анализу, включает – внутреннюю ошибку, детерминируемую личностным фактором. На переработку в ходе научного исследования она поступает уже преломившись в сознании исследователя, интерпретированная им в качестве полезной для целей данного исследования. Это особенно заметно, если информация собирается методами интервью, наблюдения и т.д., когда исследователь сам оценивает признаки обследуемого. В тех случаях, когда исследователь. как будто не имеет дела с первичной информацией (например при обработке анкетных данных на ЭВМ), его личность проявляется в системе вопросов анкеты; даже если он не сам разрабатывал анкету, то, приняв ее в качестве исследовательского инструмента, уже согласился с нею и тем самым как бы ее «одушевил».

Первичная информация о социальном явлении отражает личностные установки обследуемых. Так, при изучении социальных установок искажающим фактором является установка на «социальную желательность».

Методы статистического анализа разрабатываются в основном применительно к признакам, ошибка измерения которых не существенна по сравнению с дисперсией оценок признака в данной популяции (биология, медицина и т.п.). Подобное условие не реализовано в социологическом исследовании. Допустим, респондент дает оценку признака по шкале от – 3 до +3 и все «оценки распределены по нормальному закону; дисперсия распределения оценок равна примерно единице. Однако и собственная ошибка оценивания предположительно равна единице, т.е. практически равна дисперсии.

Сказанное приводит к выводу, что при статистической обработке социальных данных понятие строгости приобретает иной смысл в отличие от принятого в математике. Нам представляется, что в обработке социальной информации на первый план выступает качественная строгость. Математическая модель, приложенная к реальным социальным данным, должна, прежде всего, содействовать их качественной интерпретации.

Принятие требования о качественной строгости в обработке данных ставит вопрос о критерии различения содержательных выводов, вытекающих из самих данных, и псевдовыводов, привнесенных в ходе обработки. Таким критерием может служить только система методов обработки данных: сопоставление результатов применения различных методов в единстве с качественным анализом позволяет выявить в определенной степени достоверную научную информацию.

Исследователю необходимо стремиться к инвариантным результатам, в которых влияние собственной ошибки первичной информации сведено к минимуму. Это может быть достигнуто в том случае, когда в основе анализа лежит не отдельный признак, а определенная их совокупность, рассматриваемая как некоторая единица статистического анализа. Такую совокупность признаков мы назвали комплексом данных. С теоретических позиций исследователя (или группы исследователей) комплекс данных представляет собой некоторое целое, которое может анализироваться как относительно своей внутренней структуры, так и с позиций связи с другими комплексами. Как правило, комплексы должны быть определены до начала сбора первичной информации, при составлении плана исследования. Говоря более конкретно, под комплексом следует понимать некоторые признаки популяции как единого целого, группу свойств респондентов, которые требуется упорядочить, найти причинно-следственные связи и т.п. При этом не имеет существенного значения, относятся ли изучаемые признаки или свойства, информация о которых зафиксирована в исследовании, к области одной науки или различных наук, изучаются ли они одним исследователем или многими, и т.п. Таким образом, понятие комплекса мы связываем не с организацией научного исследования, а с содержанием информации, полученной в ходе исследования. Многомерный анализ позволяет постепенно сокращать многообразие первичной информации, получить компактную научную информацию, отражающую сущность того, что внешне проявляется как неупорядоченное многообразие.

Набор комплексов, отражающий определенное состояние изученной выборки, фиксируется в виде матрицы, которая и является исходным документом многомерного анализа, выполняемого в соответствии с исследовательскими задачами. Строки матрицы описания представляют собой признаки, столбцы – объекты. В геометрическом представлении матрица описаний – это совокупность всех точек-векторов n -мерного пространства. Так как количество признаков обычно значительно меньше числа обследованных объектов, часто удобнее использовать транспонированную матрицу описания. Хотя вообще, что считать строками, что столбцами – вопрос договоренности, но в классическом многомерном анализе в основном оперируют признаками.

Заметим, что при анализе информации на ЭВМ можно вообще не составлять матрицы описаний в явном виде, а данные вводить в память машины непосредственно с анкеты или других документов. Но это – вопрос технический, а матрицы описаний в явном или неявном виде, но остаются основным документом, источником многомерного анализа. Характер же анализа зависит от тех конкретных задач, которые ставит перед собой исследователь.

Всевозможные методы многомерного статистического анализа, как классические так и эвристические, способствуют решению одной из двух задач анализа – статистического описания или статистического объяснения (предсказания).

Статистическое описание используется при изучении внутренней структуры отдельного комплекса данных. Такое изучение может вестись по трем основным направлениям: 1) сведение множества первичных оценок в одномерную интервальную шкалу изучаемого признака, 2) сокращение пространства признаков путем выделения некоторых обобщающих переменных, 3) сокращение количества объектов путем сведения их в некоторые обобщенные объекты.

Построение интервальной шкалы на основе комплекса данных есть получение ненаблюдаемых количественных отношений путем преобразования наблюдаемых качественных отношений. В социологическом исследовании речь идет главным образом об измерении социальных установок.

Эта задача основана на модели общего фактора, суть которой втом, что все учитываемые при измерении признаки содержат информацию об отражаемой установке. Но, кроме того, любой признак отражает также и другие, в данных условиях мешающие установки, а также ошибку, совершаемую при сборе первичной информации. Все это означает, что задача измерения в общей постановке неразрешима: необходимы некоторые допущения, упрощающие общую модель измерения и приводящие ее к виду, доступному для практического использования.

С измерением тесно связана задача поиска комплексов признаков, в существенной степени отражающих одно и то же обобщенное свойство. Решению этой задачи служит факторный анализ. Этот метод используется для разработки некоторых теоретических положений на основе эмпирических исследований. Общая цель факторного анализа – сократить число первоначально учтенных переменных без существенной потери информации. Общая модель факторного анализа заключается в том, что любая переменная содержит общую для совокупности часть и часть, специфическую для данной переменной. В ходе анализа необходимо определить вес каждой обобщенной переменной в первичной учитываемой переменной.

Упорядочение совокупности объектов возможно путем объединения их в группы (таксоны) на основе сходства. Возможность такого упорядочения зависит от расположения объектов в многомерном пространстве учитываемых признаков. Нами выделяются четыре основных вида распределений объектов: равномерное, мономодальное, мультимодальное и таксономическое. В первых двух случаях таксоны выделяются только условно, в двух других случаях они существуют объективно. Распределение заранее не известно, поэтому задача исследователя и сводится к определению его характера. Основная идея анализа – обнаружить группы объектов, похожие между собой настолько, что их можно заменить одним типическим объектом, не похожим на объекты других таксонов. Процедуры, нацеленные на решение этой задачи, обычно называются численной таксономией. Наиболее сильными среди них являются методы распознавания образов.

Под статистическим объяснением социальных явлений и статистическим предсказанием их будущих состояний мы понимаем определение статистической связи между комплексом данных, отражающим изучаемое явление, и комплексом, отражающим предполагаемые факторы. Хотя такое объяснение и предсказание в содержательном отношении – различные исследовательские задачи, однако их структура во многом идентична: имеются объяснимое или предсказываемое явление, переменные, которые объясняют или предсказывают состояния явления, и закономерная связь явлений с условиями своего существования как основа объяснения или предсказания.

Статистическому объяснению или предсказанию служат корреляционный анализ и способы принятия статистических решений. Несмотря на разнообразие этих методов, суть их одна – сопоставление двух переменных и определение степени совпадения их оценок (количественных или качественных); при этом комплексы переменных сводятся к одной обобщенной переменной. Методы статистического объяснения и предсказания различаются только способом сведения комплекса переменных к обобщенной. Например, в множественном и каноническом корреляционном анализе комплексы переменных сводятся к обобщенной переменной линейным преобразованием; в методах принятия статистических решений наряду с линейными используются и криволинейные преобразования (параболические, логарифмические). Нами опробован и способ таксономического сведения комплексов переменных к обобщенным переменным с последующим составлением двумерной таблицы сопряженности таксонов.

Задача исследования состоит в разработке таких способов суждения, которые в практике не приводили бы к ошибкам, превышающим допустимый уровень. Это становится возможным, если в распоряжении исследователя имеется достаточно обоснованная многомерная информация, которая и подвергается переработке в целях выявления закономерной связи.

Представляет интерес случай, когда объясняющий комплекс переменных не содержит достаточной информации о состояниях изучаемого явления. Конечно, и такое объяснение ценно, если оно содержит более полную информацию о явлении, чем та, которой располагает наука до момента предлагаемого объяснения. Сокращение таких недостаточных совокупностей признаков может упростить дальнейший научный поиск. При этом предъявляется требование, чтобы при сокращении совокупности признаков не увеличилась ошибка объяснения или чтобы при незначительной потере информации во многом упростился способ первичной информации, необходимый для решения поставленной задачи.

Мы вычленили структурные элементы статистического анализа данных социологического исследования. Это первый этап системного подхода. Второй (и главный) этап – определение связей между элементами системы. Для каждого из рассмотренных методов в настоящее время имеются стандартные программы для ЭВМ. Эти стандартные программы – своеобразные «кирпичики» системы обработки.

Казалось бы, проблема только в том, как из стандартных «кирпичиков» образовать системы обработки данных, способные удовлетворить потребности любого конкретного исследования. Однако трудность в том, что рассмотренные отдельные процедуры в каждом конкретном исследовании могут сочетаться множеством вариантов, которые заранее невозможно и нет смысла предугадывать. Кроме того, критерий различения объективных и привнесенных результатов обработки недостаточно четок для формализации. Поэтому после применения одной или нескольких стандартных процедур возникает необходимость интерпретации полученных результатов с последующим решением вопроса о характере дальнейшей обработки.

В настоящее время мы выделяем три этапа в работе системы «исследователь – ЭВМ».

1. Предварительный анализ – построение одномерных шкал, характеристика одномерных распределений, подсчет парных корреляций признаков матрицы описаний, изучение корреляционных плеяд. Результаты анализа служат для уточнения комплексов данных.

2. Изучение внутренней структуры комплексов, возможностей сокращения пространства признаков.

3. Решение задач статистического объяснения с поиском оптимальных совокупностей существенных признаков.

Таким образом, в разработке системы статистической обработки информации, полученной в ходе эмпирического исследования, возможно выделение следующих звеньев.

1. Формулировка содержательных проблем, исследование которых требует применения математических методов. Эта формулировка осуществляется как на основе анализа социальных исследований, проводимых в настоящее время, так и на основе тех ближайших и перспективных задач, которые поставлены и ждут решения.

2. Увязывание сформулированных проблем с системами статистических методов, которые понадобятся для переработки информации в исследованиях, направленных на решение этих проблем; выделение наиболее типичных алгоритмов и их групп с тем, чтобы разработать логически обоснованную систему переработки информации.

3. Разработка библиотеки стандартных программ частных алгоритмов, программ по объединению этих алгоритмов в целостные системы, программ для определения качества промежуточных результатов проверки теоретических предположений и т.п.

4. Организация информационного и консультационного обслуживания исследований, накопление методик по сбору информации и методических рекомендаций по разработке и применению таких методик, накопление стандартизированных средств исследования.

Основные проблемы, на которые наталкивается исследователь в ходе реализации рассмотренной перспективы, связаны не столько с техническими возможностями (это скорее организационно-экономическая проблема, чем собственно научная), сколько с неизученностью логико-лингвистических процедур над знаками, в которых заключена обрабатываемая информация. Это проблема несопоставимости данных, трудности перевода из одной системы измерения в другую, выражение одного понятия разными словами, использование одного слова в различных значениях и т.п. Хотя эти проблемы обсуждаются давно, отсутствие единого инструментария не позволяет исследователям подойти к согласованной договоренности. Конечно, предлагаемая нами система отнюдь не решит этих проблем, а, наоборот, должна опираться на их решение, но мы надеемся, что это побудит исследователей заняться более углубленным рассмотрением указанных проблем.

ЧТО ПРОИСХОДИТ ВО ВЗРОСЛОЙ ЖИЗНИ? Если вы все еще «неправильно» связаны с матерью, вы избегаете отделения и независимого взрослого существования...

ЧТО ПРОИСХОДИТ, КОГДА МЫ ССОРИМСЯ Не понимая различий, существующих между мужчинами и женщинами, очень легко довести дело до ссоры...

Что делает отдел по эксплуатации и сопровождению ИС? Отвечает за сохранность данных (расписания копирования, копирование и пр.)...

Система охраняемых территорий в США Изучение особо охраняемых природных территорий(ООПТ) США представляет особый интерес по многим причинам...

Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте: