СОЗДАНИЕ НАДЁЖНЫХ ТЕСТОВ: ЛИЧНОСТНЫЕ ОПРОСНИКИ. РАЗРАБОТКА ЗАДАНИЙ

СОЗДАНИЕ НАДЁЖНЫХ ТЕСТОВ: ЛИЧНОСТНЫЕ ОПРОСНИКИ. РАЗРАБОТКА ЗАДАНИЙ

http://optimalist.by.ru/lit/index.shtm
Клайн П. Справочное руководство по конструированию тестов.≈ Киев, 1994

Личностные опросники ≈ широко используемые методики измерения личностных качеств, поскольку они могут разрабатываться так, что им будут присущи многие атрибуты эффективных тестов: надежность, дискриминативность и стандартизованность. Однако, в силу природы личностных переменных, труднее всего бывает установить валидность именно этих методик.

Проблемы конструирования личностных опросников

Как и в случае тестов способностей, качество отдельных заданий (вопросов, утверждений) является определяющим для всего опросника, и поэтому в данной главе будут рассматриваться трудности, возникающие при формулировании заданий, а также преимущества различных типов заданий.

При разработке заданий для личностных опросников необходимо учитывать следующие проблемы, которые, если их не обойти, неизбежно приведут к низкой валидности тестов.

(1) Установка на согласие (response set of acquiescence). Это тенденция испытуемого соглашаться с утверждениями или отвечать на вопросы "да" независимо от их содержания. Чаще всего проявляется, согласно Guilford (1959), когда утверждения (вопросы) неоднозначны и неопределенны.

(2) Установка на социально одобряемые ответы (response set of social desirability). Это тенденция испытуемых отвечать на вопросы теста так, чтобы выглядеть "социально положительным": если возможен "социально желательный" ответ, то весьма вероятно, что испытуемые будут его давать. Эта установка, как показал Edwards (1957), оказывает, в частности, влияние на результаты теста ММРI (Minnesota Multiphasic Personality Inventory).

(3) Установка на неопределенные или средние ответы (response set of using the uncertain or middle category). Если в опроснике представлена средняя категория ответов, отражающая нерешительность или неуверенность в ответе (напр., "не уверен", "не знаю", или "затрудняюсь ответить"), то многие испытуемые склонны к ней прибегать, как к безопасному компромиссу. Это приводит к снижению валидности заданий, поскольку большинство методов анализа вопросов основывается на крайних значениях показателей.

(4) Установка на "крайние" (расположенные по краям шкалы) ответы (response set of using the extreme response). Эта установка может проявляться при использовании многоэлементной рейтинговой шкалы. Некоторые испытуемые, независимо от содержания вопросов, предпочитают выбирать крайние ответы (Vernon, 1964).

(5) Очевидная валидность (face validity) вопросов (утверждений). Несомненно, в тестах личности необходима уверенность в том, что ответы на вопросы могут рассматриваться как правдивые. Cattell и Kline (1977) рассматривают данные опросника как данные Q и Qi. Данные из первого множества рассматриваются так, как если бы они отражали поведение испытуемого, данные из второго ≈ как ответ на отдельный вопрос, ответ, который либо нагружен некоторым фактором, либо нет, независимо от того, отражает ли он поведение испытуемого.

(6) Выборка из генеральной совокупности вопросов. В тестах интеллекта и специальных способностей, обсуждавшихся в предыдущей главе, относительно легко убедиться в том, что задания принадлежат или с высокой степенью вероятности выглядят принадлежащими к подразумеваемой для них генеральной совокупности. Лингвистические задания нелегко перепутать с математическими или какими-либо другими. Однако, в области особенностей личности и темперамента все гораздо сложнее.

В самом деле, иногда даже опытные и искусные разработчики вопросов (например, Cattell, 1957) бывают удивлены тем, что вопросы нагружены не теми факторами, для выявления которых они были созданы, а также тем, что вопросы вообще не нагружены ни одним из факторов. Эта проблема с точки зрения классической теории тестов состоит в трудности определения конкретной выборочной совокупности вопросов. В результате возникает проблема подбора адекватной выборки из выборочной совокупности вопросов или утверждений для теста, а без этого тест не может быть валидным.

(7) Выборка из генеральной совокупности испытуемых. Как указано выше, в личностных тестах труднее обеспечить адекватность выборки из выборочной совокупности, чем в тестах способностей. При использовании тестов способностей обычно известна вполне определенная категория лиц (популяция), для которой данный тест предназначен, и таким образом, по крайней мере в принципе, можно эффективно подбирать выборки. Однако, в личностных тестах, в отличие от тестов, разрабатывающихся для испытуемых с той или иной патологией, в идеале нужны выборки из общей популяции (т. е. всего населения страны), в которой встречаются все возможные показатели. Такие выборки, как показано, должны быть большими, и их обычно трудно получить.

(8) Проблемы в установлении адекватного критерия валидности. Существует, как уже подробно обсуждалось в разделе о валидности, значительная трудность в нахождении адекватного критерия. Например, если мы пытаемся измерить авторитаризм, то будем вынуждены полагаться на рейтинги, поскольку нет никаких других внешних мерил (в отличие от, например, школьных экзаменов в случае диагностики способностей). Рейтинги ≈ это неадекватный инструмент, а если бы они подходили, тест был бы не нужен. Аналогично, если существуют высокоэффективные тесты авторитаризма, которые могут быть использованы в качестве критерия валидности, вероятно, в новом тесте нет необходимости.

Таким образом, мы вынуждены ограничиваться исследованиями конструктной валидности, обычно основывающимися на мультивариативном анализе разрабатываемого теста по сравнению с другими переменными, а также исследованиями специальных групп, имеющих по предположению контрольные показатели по рассматриваемой переменной.

Таковы основные сложности, возникающие при конструировании личностных опросников, и следует отчетливо их себе представлять, прежде чем вы приступите к формулированию вопросов или утверждений. Две последние проблемы, хотя они и являются определяющими, выходят на первый план уже после того, как подобраны задания теста.

Кроме того, что при разработке заданий следует всегда помнить о вышеперечисленных правилах, необходимо, конечно, ослабить, насколько это возможно, влияние наиболее существенных установок на ответ. Ниже описано, как это следует делать.

Установки на ответы (response sets) были определены Кронбахом (Cronbach, 1946) как стилистическая последовательность, стимулируемая формой ответов на задания личностного опросника. Как указывалось ранее, одной из наиболее существенных является установка на согласие (см. Messick, 1962), то есть тенденция соглашаться с утверждением независимо от его содержания.<BR.< p>

Messick (1962) утверждает, что сбалансированная шкала ≈ это один из способов минимизации влияния установки на согласие. Сбалансированной называется такая шкала, для которой равное или примерно равное количество заданий имеют ключевые ответы "да" или "нет", "верно" или "неверно".

Однако, здесь заслуживают внимания два момента. Во-первых, сбалансированная шкала не устраняет полностью тенденцию: установка на согласие все же может проявиться, но, как указывает Knowies (1963), такая шкала не позволит спутать "соглашающегося" испытуемого с тем, у кого реально высокие показатели, а это важно. Конечно, можно возразить, что "соглашающийся" испытуемый с потенциально высокими показателями не будет выявлен при сбалансированной шкале. Если это происходит чаще, чем в нескольких отдельных случаях, то последующее исследование валидности теста будет обречено на неудачу.

Во-вторых, искажающего влияния этой установки на показатели по тесту можно избежать только в том случае, если будут сформулированы в равной степени содержательные, недвусмысленные и побуждающие к определенному ответу задания, имеющие как положительные, так и отрицательные ключевые ответы. Если вы сможете сформулировать лишь очень небольшое количество заданий с ключевым ответом "нет", то эти задания будут способствовать низкой валидности шкалы. Несколько примеров пояснят это.

Пример 1. Рассмотрим вопрос на экстравертированность: "Вам нравятся вечеринки?" Обратной формой этого вопроса будет: "Вам не нравятся вечеринки?" В этих заданиях стилистические обороты языка удовлетворительны, потому что принято говорить, что вечеринки нравятся или не нравятся. Они также удовлетворительны, потому что, как это и случается, испытуемому с высоким показателем по параметру экстраверсии нравятся вечеринки, а испытуемому с низким показателем ≈ не нравятся. Таким образом, полярность этих заданий эффективна. Однако, часто попытка получить обратную форму вопроса становится источником ошибок.

Пример 2. Следующее задание было создано, чтобы выявить удовлетворение, получаемое от статистики ≈ как утверждают, оно относится к чертам навязчивости: "Являетесь ли вы одним из тех людей, кто находит статистические данные и таблицы совершенно скучными?" Это обратная форма вопроса с ключевым ответом "нет". Однако, очевидно, (прежде чем первое испытание теста показало, что этот вопрос не работает), можно не считать статистику скучной, но и не восхищаться ею. Таким образом, обращение вопросов, когда они относятся к некоторым крайним проявлениям в поведении, вероятнее всего не даст результата в силу континуальности, лежащей в основе многих ответов на задания. Обращение вопросов обычно предполагает дихотомичность ответа. Другими словами, если ответ на вопрос является дихотомическим, то обращение вопроса для сбалансированной шкалы возможно; если же используются крайние (граничные) значения из континуума, обращение не будет удачным.

Пример 3. Аналогично, можем рассмотреть вопрос о том, нравится ли испытуемым отдавать распоряжения. Обратная форма вопроса, такая как: "Вы не испытываете удовольствия, когда вам вменяется в обязанность отдавать распоряжения?" ≈ не может быть удачной, потому что возможны случаи, когда отрицание неприязни к распоряжениям, приказам вовсе не означает получение удовольствия от этого. В основе этого ответа лежит континуум, а не дихотомия. Этот вопрос не может быть обращен.

Пример 4. В данном задании рассматривается аккуратность: "В школах сильно преувеличивают значение аккуратности". Можно утверждать, что навязчиво аккуратный индивидуум будет считать, что значение этой особенности поведения невозможно преувеличить. Следовательно, данное задание было написано так, чтобы отрицательный ответ действительно выявлял исследуемую черту. Таким образом, с точки зрения разработки заданий, это жизнеспособное "негативное" задание.

В этих примерах проиллюстрированы два наиболее важных момента в формулировании заданий с отрицательными ключевыми ответами: они могут быть сформулированы, во-первых, если отрицательный ответ соответствует реальному поведению, и во-вторых, если в основе ответов лежит дихотомия, а не континуум, как в приведенном выше примере 1.<BR.< p>

ЗАДАНИЯ С ВЫНУЖДЕННЫМ ВЫБОРОМ, ПОДОБРАННЫЕ ПО ИХ СОЦИАЛЬНОЙ ЖЕЛАТЕЛЬНОСТИ

В списке личностных предпочтений (Personal Preference Schedule) Эдвардса (EPSS) (Edwards, 1959), как мы уже отмечали в обсуждении типов заданий (см. п. 8 на стр.95), задания состоят из двух утверждений, подобранных по социальной желательности, одно из которых испытуемый должен выбрать. Это радикальное решение для устранения влияния установки на социально одобряемые ответы. Однако, этот метод не получил поддержки по следующим причинам.

(1) Крайне трудно получить согласованные утверждения, релевантные также в терминах содержания, которое мы хотим измерить {Edwards, 1957). Действительно, серьезное возражение против EPPS ≈ это то, что данный тест является немногим более, чем упражнением по конструированию тестов, и мало свидетельств того, что он измеряет переменные с какой-либо эффективностью (см. Kline, 1979).

(2) Любые незначительные различия в социальной желательности между частями заданий имеют тенденцию увеличиваться, когда они предъявляются вместе, как это предусмотрено в форме вынужденного выбора, что сводит на нет большинство из усилий по подбору утверждений.

(3) Экспертное оценивание социальной желательности ≈ значительное упрощение данного явления. Это становится ясно из того, как получается средняя экспертная оценка социальной желательности для каждого задания. Для этого предполагается, что социальная желательность одномерна (хотя a priori это не так). В действительности было бы нужно многомерное шкалирование влияния социальной желательности по всем заданиям, и затем подсчет показателей по отдельным измерениям ≈ процедура, которая могла бы быть, несомненно, рекомендована в свете приведенного выше пункта (2)! Кроме того, как указывает Messick (1960), социальная желательность сама по себе допускает значительные индивидуальные различия: то, что социально желательно для члена парламента, почти наверное не является таковым для лондонского докера.

Исходя из этих трех причин, не рекомендуется прибегать к такому радикальному и, по-видимому, недостаточно эффективному шагу, как конструирование спаренных заданий, подобранных по их социальной желательности.<BR.< p>

Некоторые авторы (например, Айзенк в тестах ЕРI и EPQ) вводят особую группу заданий для выявления тех лиц, которые склонны давать социально одобряемые ответы. Они состоят из вопросов, касающихся незначительных проступков, которые, увы, иногда совершаются большинством людей. Набравший наибольшее количество баллов по такой шкале рассматривается как дающий социально одобряемые ответы, а поэтому его показатели по тесту могут быть проигнорированы. Хотя Eysenck и Eysenck (1976), исходя из факторного анализа заданий теста EPQ утверждают, что шкала лжи измеряет определенную личностную переменную, для практического тестирования со значительным потоком испытуемых этот прием для обнаружения установки на социально одобряемые ответы весьма полезен.

Вот некоторые типичные утверждения шкалы лжи: "Я никогда не лгу"; "Я всегда прихожу вовремя на встречи и свидания"; "Я всегда плачу за проезд на транспорте".

ВЫВОДЫ ОТНОСИТЕЛЬНО УСТАНОВКИ НА СОЦИАЛЬНО ОДОБРЯЕМЫЕ ОТВЕТЫ

Нет сомнения, что установка на социально одобряемые ответы может влиять на результаты выполнения заданий, и, следовательно, на показатели тестов личности. Несмотря на это, ее влияние может быть минимизировано. Вот некоторые выводы:

(1) Следует всячески избегать заданий с явно социально желательной или нежелательной окраской.

(2) Процедура анализа заданий позволит устранить те задания, ответы на которые явно смещены в одном направлении ("да" или "нет").

(3) Должна быть всегда продемонстрирована валидность теста, что позволит окончательно устранить все задания, в ответах на которые сказывается установка на социальную желательность.

(4) Нет необходимости предпринимать столь тщательно разрабатываемые меры предосторожности против установки на социальную желательность, как это делал Edwards (1957).

Это тенденция, сказывающаяся в рейтинговых шкалах и таких тестах, как, например, тест личностных шкал Комрея (Cornrey Personality Scales; Cornrey, 1970), то есть тех, в форму заданий которых входят рейтинговые шкалы. С моей точки зрения, преимущества рейтинговых шкал (в плане чувства удовлетворения у тех испытуемых, которые полагают, что на вопросы лучше отвечать в такой форме) сводятся на нет проблемами, возникающими с теми испытуемыми, которые склонны подтверждать крайние ответы. Для того, чтобы не спутать их с лицами, имеющими высокие показатели по тесту, сбалансированная шкала уже не поможет, потому что при такой установке каждый из крайних пунктов шкалы одинаково привлекателен. Единственный способ избежать этой проблемы ≈ не использовать задания данного типа. Если же мы по каким-либо причинам вынуждены использовать такие шкалы, то тщательный анализ заданий и валидизация переменных теста, вероятно, смогут устранить те вопросы (утверждения), которые особенно побуждают испытуемых проявлять эту установку.

Как утверждает Guilford (1959), наиболее благоприятной почвой для проявления любых установок на ответы являются те задания, которые неопределенны, неоднозначны и неконкретны. Значение этого утверждения невозможно преувеличить. Формулирование заданий путем следования указанным выше правилам позволит минимизировать влияние установок. Более того, тщательная валидизация теста продемонстрирует, что влияние этих искажающих факторов незначительно. Однако, это влияние не будет столь несущественным, если не будут приняты меры предосторожности. Применительно к установкам на крайние ответы можем рекомендовать избегать использовать задания типа рейтинговых.

До сих пор при обсуждении принципов конструирования заданий основное внимание уделялось их форме. При этом мы предполагали, что знаем, какие черты (особенности) пытаемся тестировать. Тем не менее, справедливо было бы спросить, каким же именно образом мы принимаем решения о содержании заданий. Трудно делать общие заключения об этом, поскольку многое зависит от особенностей конкретной области поведения, для диагностики которой мы хотим разрабатывать тест личности. Чтобы проиллюстрировать, как принимать решения о содержании тестов, я приведу несколько примеров.

Kline (1968) выполнил экспериментальное исследование особенностей анального характера (Freud, 1908), в ходе которого для конструируемого теста было поставлено большое количество эмпирических задач. Существует ли анальный характер? Если да, то измеряется ли он другими личностными опросниками? Имеет ли он отношение к научению ребенка справлять большую нужду? Изменяется ли он от культуры к культуре, как следовало бы ожидать, исходя из психоаналитической теории? Чтобы ответить на эти вопросы, было необходимо сконструировать и валидизировать инструмент для измерения анального характера. Чтобы сделать это, я должен был решить, какие черты должны войти в тест.

Далее следует краткое описание того, как содержание вопросов (утверждений) было отшлифовано, прежде чем они превратились в задания теста. Получившийся в результате этого тест (Ai3Q), похоже, выдержал подробные критически проверки (см. Kline, 1978). Были подробно изучены психоаналитические описания анального характера (напр., Abraham, 1921; Jones, 1923; Menninger, 1943), и составлен список всех черт и специфических примеров поведения. Примеры из публикации Jones (1923) перечислены ниже.

(1) Промедление в удовлетворении потребностей, доводимое до их интенсивной концентрации, монотонная настойчивость, своевольная независимость ≈ уверенность, что никто не может сделать что-либо так хорошо, как он сам.

Подобным образом был собран длинный подробный список черт и особенностей поведения. Затем они были преобразованы в задания теста с использованием всех тех правил и приемов, которые обсуждались в данной главе.

Нет сомнений в том, что полезно иметь инструмент для измерения агрессивности, например, в центре по перевоспитанию правонарушителей или для малолетних заключенных. Основным подходом в этом случае было бы составление списка всех проявлений агрессивности, которые только можно вообразить, преобразование их в задания и апробация на соответствующей выборке. Следует отметить, что при таком подходе не стоит вопрос о том, что есть агрессия как личностное измерение. Для этого необходимо специальное исследование. Так, факторный анализ заданий продемонстрировал бы, есть ли только одно измерение, ряд коррелирующих между собой измерений, несколько некоррелирующих измерений или ни одного реального синдрома поведения, которые могли бы быть значимо описаны как агрессивность.

Возвращаясь к нашему примеру, отметим, что есть набор признаков агрессивного поведения, которые бы могли быть использованы в заданиях: постоянно дерется (не в шутку); когда раздражен, вступает в драку по любому поводу; использует в драке разбитые бутылки; носит с собой бритвы, кастеты, велосипедные цепи, складные ножи, ремни с металлическими бляхами, имеет тяжелые ботинки; бьет упавших противников ногами; избивал кого-либо до потери сознания; страдал от несправедливости и оскорблений; кричит, если раздражен; разбрасывает вещи по комнате; лжет, чтобы раздразнить конкурентов; придумывает страшные истории. Затем подобный список при помощи приемов, описанных в данной главе, может быть преобразован в задания теста.

При тех сложных и неизбежно неточных инструкциях для конструирования заданий тестов личности, приведенных в данной главе, наиболее ценным может оказаться краткое пошаговое описание интересующей нас процедуры. Оно и приводится ниже. Полное обоснование всех этих положений содержится в тексте главы.

(1) Перечислите черты и особенности поведения из описаний в психологической литературе.

(2) Преобразуйте описание каждой черты или особенности поведения в задание. Это лучше всего сделать при помощи обычных форм заданий опросников: (а) дихотомических заданий (типа "да-нет"); (б) трихотомических заданий (типа "да-?-нет"): (в) альтернативных заданий; (г) заданий типа "нравится-не нравится"; (д) заданий с вынужденным выбором; (е) заданий с рейтинговыми шкалами. Выбор формы задания зависит от особенностей используемого материала и оценки преимуществ и недостатков каждого типа заданий.

(3) Независимо от используемого типа заданий старайтесь, чтобы назначение каждого задания не было слишком очевидным.

(4) формулируйте каждое задание понятно и недвусмысленно.

(5) Насколько возможно, обеспечьте, чтобы каждое задание относилось к какой-либо конкретной области поведения.

(6) В каждом задании должен содержаться только один вопрос или одно утверждение.

(7) Избегайте использовать термины частоты и другие субъективные выражения.

(8) Когда это возможно, задания должны касаться поведения, а не чувств и отношений.

(9) Обеспечьте, чтобы ответы на задания давались быстро.

(10) Избегайте влияния основных установок на ответы, таких как установка на согласие и установка на социально одобряемые ответы.

(11) Вероятность проявления установки на согласие лучше всего уменьшается формулированием понятных заданий и использованием сбалансированных шкал.

(12) Проверьте при помощи процедур анализа заданий то, что тенденция к согласию ≈ несущественный фактор.

(13) Установки на социально одобряемые ответы легче всего избежать путем тщательного формулирования заданий.

(14) Проверьте при помощи техники анализа заданий, что установка на социально одобряемые ответы ≈ несущественный фактор.

(15) Избегайте с помощью адекватной формы заданий влияния установок на выбор крайних или средних категорий ответов.

(16) Проверьте при помощи процедуры валидизации, что влияние установок на ответы не является существенным. Если тесты валидны, то установки на ответы не могут оказывать влияние на их показатели.

СОЗДАНИЕ НАДЁЖНЫХ ТЕСТОВ: ЛИЧНОСТНЫЕ ОПРОСНИКИ. РАЗРАБОТКА ЗАДАНИЙ

http://optimalist.by.ru/lit/index.shtm
Клайн П. Справочное руководство по конструированию тестов.≈ Киев, 1994

Конфликты в семейной жизни. Как это изменить? Редкий брак и взаимоотношения существуют без конфликтов и напряженности. Через это проходят все...

ЧТО ПРОИСХОДИТ ВО ВЗРОСЛОЙ ЖИЗНИ? Если вы все еще «неправильно» связаны с матерью, вы избегаете отделения и независимого взрослого существования...

ЧТО ТАКОЕ УВЕРЕННОЕ ПОВЕДЕНИЕ В МЕЖЛИЧНОСТНЫХ ОТНОШЕНИЯХ? Исторически существует три основных модели различий, существующих между...

Что будет с Землей, если ось ее сместится на 6666 км? Что будет с Землей? - задался я вопросом...

Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте: