Сдам Сам

ПОЛЕЗНОЕ


КАТЕГОРИИ







Последовательность действий при проверке надежности.





В.В. Столин [15], предлагает следующий алгоритм действий для проверки надежности теста:

1.Узнать, существуют ли данные о надежности теста, предполагаемого к использованию, на какой популяции и в какой диагностической ситуации проводилась проверка.

Если проверки не было или признаки новой популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей.

2. Если возможности обследования испытуемых, смысл теста и возможности обработки (наличие ЭВМ) позволяют, то произвести второе тестирование на всей выборке стандартизации и подсчитать все коэффициенты, приведенные в настоящем параграфе, как для целого теста, так и для отдельных пунктов. Анализ полученных коэффициентов позволит понять:

- насколько пренебрежима ошибка измерения;

- дает ли данный тест интервальную шкалу или только диагностичен для крайних групп, насколько устойчиво измеряемое свойство во времени (возможен ли статистический прогноз);

- в каких своих частях (пунктах) тест менее надежен (анализ этих пунктов позволяет психологически осмыслить содержательный механизм взаимодействия пунктов с испытуемыми).

3. Если возможности ограничены, произвести повторное тестирование только на части выборки (не менее 30 испытуемых), подсчитать (вручную) ранговую или четырехклеточную корреляцию для оценки внутренней согласованности (методом расщепления) и стабильности целого теста.

Контрольные вопросы для самопроверки: §6. Надежность теста. Теория надежности.

1. Что понимается под надежностью теста?

2. Какие виды надежности существуют в психометрике? Дайте им краткую содержательную характеристику.

3. Как проверяется надежность отдельных пунктов теста?

4. На чем основана теория надежности?

5. Что понимается под согласованностью пунктов теста? Относится ли это понятие в равной степени и к надежности, и к валидности?

6. Какие действия последовательно должен произвести психолог при проверке надежности?

 

Литература к теме.

1. Анастази А. Психологическое тестирование. В 2-х кн. М., 1982.

2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Изд-во "Питер", 1999. - 528 с.

3. Корниенко А.Ф. Теория и практика психологического исследования. Учебное пособие. Казанский пед. университет, Казань, 2000. -258 с.

4. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина.- М., 1987.

5. Основы психодиагностики / Под ред. А. Г. Шмелева. Ростов-на-Дону., 1996.

 

 

Дискриминативность теста.

В параграфе 2 темы 1, посвященной содержанию и предмету психодиагностики, было отмече­но, что к психологическим измерениям предъявляются определенные научные требования. С точки зрения психометрики имеются пять характеристик, которым должны удовлетворять все методики и тесты для психологических измерений, к ним относятся: надеж­ность, дискриминативность, валидность, достоверность и репрезентативность.

Прежде чем переходить к обсуждению методов достижения валидности, рассмотрим способы установления дискриминативности. Под дискриминативностью теста будем понимать способность теста дифференциро­вать испытуемых в диапазоне от "макси­мального" до "минимального" результа­та набранного по данному теста.

Как отмечает П. Клайн [8], потенциально тест может быть гораздо более дискриминативным, чем другие средства измерения, например, интервью или рейтинги.

Показатели дискриминативности связаны по существу с ранжированием испытуемых. Основной пока­затель коэффициента дискриминативности, " õ" Фергюсона, который рекомендуется для оценивания дискриминатив­ности тестов, достаточно прост в вычислении. Если не касаться процедуры вывода формулы, то ее можно представить в следующем виде:

;

где N - количество испытуемых, п - количество заданий,

fi - частота встречаемости каждого показателя.

Коэффициент Фергюсона õ =0, когда все испытуемые получили одинаковые показатели, (то есть, когда нет дискриминативности), и равно 1 при равномерном (прямоугольном) распределении.

Вычислить õ Фергюсона можно следующим образом.

1. Подсчитать, как часто встречаются значения показателей для данного теста.

2. Возвести эти числа в квадрат и просуммировать: ;

3. Прибавьте 1 к количеству заданий: п + 1.

4. Возвести в квадрат количество испытуемых: .

5. Перемножить количество заданий на результат шага (4): n .

6. Подста­вить все найденные элементы в формулу.

Разработчик тестов должен учитывать некоторые характеристики õ коэффициента. Поскольку для равномерного (прямоугольного) распределения (наиболее дискриминативного) необходимы задания, в которых бы наиболее полно были реализованы все возможные проявления измеряемого свойства, это означает, что дискриминативность до некоторой степени проти­востоит надежности, так как использование заданий с широким пе­речнем возможных проявлений измеряемого свойства уменьшает взаимную корреляцию между заданиями (см. параграф 6).

Конечно, распределение показателей, которое дает тест – это, прежде всего, фун­кция трудности заданий, а это влияет не только на надежность, но также и на дискриминативность. Это означает, что при конст­руировании теста следует исходить из предназначения теста, поскольку именно этот факт определяет то, на что ориентироваться разработчику - на достижение максимальной надежности или максимальной дискримина­тивности.

Поскольку дискриминативность целого теста зависит от дискриминативности входящих в него заданий, рассмотрим проблему определения дискриминативности отдельных заданий теста.

Аналогично с определением дискриминативности целого теста под дискриминативностью отдельных пунктов будем понимать способность отдельных пунктов (заданий) теста дифференциро­вать обследуемых относительно "макси­мального" или "минимального" результа­та теста [3].

Любой ответ испытуемого на конкрет­ное задание можно оценить по двухбалль­ной шкале – "верно" (1 балл), "неверно" (0 баллов). Сумма баллов по всем пунк­там представляет собой первичную ("сы­рую") оценку. Мера соответствия успеш­ности выполнения одной задачи (одного пункта) всему те­сту является показателем дискриминативности задания теста для дан­ной выборки испытуемых и называется коэффициентом дискриминации (индек­сом дискриминации).

где x - среднее арифметическое всех индивидуальных оценок по тесту;

x п - среднее арифметическое оценок по тес­ту у испытуемых, правильно выполнив­ших задание (в случае опросника личностности - соответствие с "клю­чом");

σ -среднеквадратическое от­клонение индивидуальных оценок по те­сту для выборки;

Nn- число испытуе­мых, правильно решивших задачу (или тех, чей ответ на данный пункт опросни­ка соответствует "ключу");

N - общее число испытуемых.

Коэффициент дискриминации может принимать значения от -1 до +1. Высокий положительный r свидетельствует об эффективности деления испытуемых. Вы­сокое отрицательное значение r свиде­тельствует о непригодности данного пункта для теста, о его несоответствии суммар­ному результату.

Индекс дискриминативности задания теста может быть вычислен с помощью метода контрастных групп. Необходимым условием приме­нения метода в этом случае является на­личие близкого к нормальному распреде­лению оценок по критерию валидизации. При этом, доля членов контрастных групп мо­жет изменяться в широких пределах в за­висимости от величины выборки. Чем больше выборка, тем меньшей долей ис­пытуемых можно ограничиться при выде­лении групп с высоким и низким резуль­татами. Чаще из выборки "извлека­ют" по 27% или 33% испытуемых.

Индекс дискриминации вычисляется с использованием формулы четырехпольного коэффициента корреляции:

где:

fg - число лиц, правильно решивших задачу, по отношению к общему числу об­следованных в группе с максимальным ре­зультатом;

fd - число лиц, правильно ре­шивших задание в группе с минимальным результатом;

р - общая пропорция пра­вильно выполненных заданий ;

q — число лиц, давших неверное решение (1 - р).

Критические значения этого коэффи­циента, свидетельствующие о диагности­ческой ценности (на уровне р < 0,05), в зависимости от числа обследованных (п) приведены ниже:

n 25 50 100 200

r 0,39 0,28 0,20 0,14

Максимальная точность определения r достигается тогда, когда макси­мальная и минимальная группы составля­ют по 27% выборки.

При анализе дискриминативности задания теста особое внимание следует уделить определению статис­тической значимости коэффициентов корреляции. В тех случаях, когда значе­ние коэффициента дискриминации при­ближается к нулю и уровень значимостиневысок, проверяемый пункт теста дол­жен быть пересмотрен в связи с некоррек­тностью формулировки задания или вари­антов ответа на него [3].

Валидность тестов.

Как отмечает А. Анастази [1], валидность теста это понятие, которое указывает на то, что измеряет тест и насколько хорошо он это делает. Однако проблемы валидизации психологических тестов хотя и являются центральными для психометрики, но, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии. Валидность является комплексной характеристикой, которая включает в себя не только сведения о том, для чего она создана, но и какова ее действенность, эффективность [15, 18].

Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивости) получаемых результатов относительно измеряемых свойств объектов, т. е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью различения "объекта" и "предмета" измерения.

Надежность - это устойчивость процедуры относительно объектов (испытуемых). Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежность - способность устойчиво различать объекты, но вопрос о валидности остается открытым.

Устойчивость теста относительно объектов (испытуемых) является необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надежность является необходимым, но не достаточным условием валидности. Отсюда понятно основное соотношение психометрики:

валидность < надежность

Это означает, что валидность теста не может превышать надежность теста. Данное соотношение, однако, неверно трактовать как "чисто" математическое, как указание на прямо пропорциональную связь валидности и надежности. Повышение надежности отнюдь не обязательно приводит к повышению валидности. По А. Анастази [1], валидность определяется репрезентативностью теста относительно измеряемой области поведения. Если эта область поведения складывается из разнообразных феноменов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноменов.

Например, возьмем глобальное понятие "речевая способность" (этому психолингвистическому термину в традиционной тестологии соответствует "вербальный интеллект"). Сюда относятся такие относительно независимые друг от друга навыки, как навыки письма и чтения. Если заботиться о содержательной валидности соответствующего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта.

В результате введения разнородных пунктов и субшкал (субтестов) мы обязательно сокращаем внутреннюю согласованность, одномоментную надежность теста, но зато добиваемся повышения содержательной валидности.

Следовательно, для расширения области применения теста психодиагност должен избегать излишнего повышения внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (как это уже упоминалось ранее) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Рассматривая понятие валидности, следует иметь в виду, что про валидность нельзя говорить обобщенно (к примеру, нельзя сказать, что тест имеет высокую или низкую валидность), давая определение валидности всегда следует указать конкретное предназначение теста.

Существует две стратегии, при помощи которых можно доказать наличие связи между тестом и тем, что он должен измерять: теоретическая и эмпирическая валидизация. Процедура проверки валидности называется валидизацией.

Теоретическая валидизация имеет отношение к самой методике – это валидность измерительного инструмента (теста).

Эмпирическая валидизация относится не столько к самой методике, сколько к цели ее использования [6, 18].

Рассмотрим основные типы валидности и соответствующие им процедуры валидизации.

1. Эмпирическая валидность. Эмпирическая валидность измеряется всегда с помощью статистического коррелирования: подсчитывается корреляция двух рядов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности. Эмпирическая валидность теста соотносится, как правило, с какими-либо внешними для психологии социально-прагматическими критериями. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных областей практики [6, 15].

Например, в области педагогической психологии это "успеваемость" (которую надо повысить), в психологии труда это "производительность труда" и "текучесть кадров", в медицине - "состояние здоровья пациента", в психологии управления - "совместимость", в юридической психологии - "преступность" (которую надо понизить) и т. п.

Ориентируясь непосредственно на эти категории, психолог, пытающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагностической программы. Если получен значимый коэффициент корреляции, то можно считать, что решены с позитивным результатом сразу две эти задачи. Но если корреляции не обнаружено, то остается неопределенность: либо невалидна сама процедура (тестовый балл не отражает например, стрессоустойчивости оператора), либо неверна гипотеза о наличии причинно-следственной связи между психическим свойством и социально значимым показателем.

Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно [15].

2. Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия.

Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании достаточно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию. В результате применяется метод экстремальных (контрастных) групп.

Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента корреляции (см. стр. 199). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности.

Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышенный риск соматических заболеваний (гипертония, язва, астма и т. п.).

Пусть на основании эпидемиологических исследований известно, что в течении трех лет из 1000 здоровых людей этими болезнями заболевают, например, 57 человек. Это означает, что превентивной (предупреждающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность "высокой" группы (заболевших) порядка 100.

Проспективная валидизация выявляет прогностическую эффективность диагностической процедуры. Высокая прогностическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач [15].

Например, если для исследования личностной предрасположенности к совершению краж проведено обследование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт "тревожности", "агрессивности" и т.п. еще не может интерпретироваться как свидетельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, угрызения совести и т.п.

3. Понятия "Содержательная" и "Конструктная" валидность. Их соотношение.

Содержательная в алидность (внут­ренняя, логическая) - это комплекс сведе­ний о том, насколько задания теста репрезентируют измеряемые свойства и особенности. Одним из основных требо­ваний при установлении содержательной валидности методики является отражение в содер­жании теста ключевых сторон изучаемо­го психологического феномена.

Если об­ласть поведения или особенность очень сложна, то содержательная в алидность требует представления в заданиях теста всех важ­нейших составных элементов исследуемо­го явления. Так, при разработке теста «вербального интеллекта» необходимо ввести группы заданий (субтестов) для проверки довольно разнородных по свое­му операциональному составу навыков письма и чтения.

Конструктная валидность. Это один из основных типов валидности, от­ражающий степень представленности (репрезентации) иссле­дуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вер­бальный интеллект, эмоциональная неус­тойчивость, интроверсия, понимание ре­чи, переключаемость и т. д. Иначе говоря, конструктная валидность определяет область те­оретической структуры психологических явлений, измеряемых тестом.

Поскольку проявления таких конст­руктов, как, например, интеллект в деятельно­сти человека многообразны и неоднознач­ны с точки зрения их выделения, процедура уста­новления конструктной валидности по сравнению с валидностью критериальной или содержательной более сложна.

При объяснении связи полученных тестовых результатов с теоретическим конструктом необходимо постепенное на­копление разнообразной информации о динамике развития измеряемого свой­ства, а также о его взаимодействии с дру­гими психическими явлениями.

Среди конкретных методов характери­стики конструктной валидности, в первую очередь, необходимо назвать сопоставление исследуемого на предмет конструктной валидности теста с другими методиками, конструктное содержание которых известно. Наличие корреляции между новым и аналогичным по конструкту тестом ука­зывает на то, что разрабатываемый тест «измеряет» примерно ту же сферу поведе­ния, способность, личностное качество, что и эталонная методика. Такая процеду­ра валидизации напоминает определение критериальной валидности в том смысле, что эталонный тест, валидность которого определена, выступает в качестве незави­симого критерия [3].

Следует, однако, заметить, что, в отли­чие от критериальной валидизации, при анализе конструктной валидности не требуется высокой степе­ни связи результатов двух тестов. Если окажется, что новый и эталонный тесты практически идентичны по содержанию и результатам и разрабатываемая методика не обладает преимуществами краткости или легкости применения, это означает лишь дублирование теста, оправданное только с точки зрения создания параллельной формы теста. Смысл процедуры конструктной валидности со­стоит в установлении одновременно как сходства, так и различия психологичес­ких феноменов, измеряемых новым тес­том по сравнению с известным.

При анализе конструктной валидности методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направ­ленных на конструкты, находящиеся в те­оретически известной или предполагае­мой связи с исследуемыми. При этом конструктная валидность характеризуется не только связями про­веряемого теста с близкородственными показателями, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно.

Подтвержде­ние совокупности теоретически ожидае­мых связей составляет важный круг све­дений конструктной валидности. В англоязычной психодиагностике такое операциональное определе­ние конструктной валидности обозначается как " предполагае­мая валидность " (assumed validity).

Прямое отношение к характеристике конструктной валидности имеет факторный анализ, позволя­ющий строго статистически проанализи­ровать структуру связей показателей ис­следуемого теста с другими известными и латентными факторами, выявить общие и специфические для группы сопоставляе­мых тестов факторы, степень их представленности в результатах, т. е. определить факторный состав и факторные нагрузки результата теста. Исключительная важ­ность такой процедуры является основа­нием для выделения ее в особый вид конструктной валидности - факторную валидность.

Важным аспектом конструктной валидности является внутренняя согласованность, отражаю­щая то, насколько определенные пункты (задания, вопросы), составляющие мате­риал теста, подчинены основному направ­лению теста как целого, ориентированы на изучение одних и тех же конструктов. Как уже было отмечено, анализ внутренней согласованности осу­ществляется путем коррелирования отве­тов на каждое задание с общим результа­том теста. Следует отметить, что крите­рий внутренней согласованности указы­вает лишь на меру связи всего содержа­ния теста с измеряемым конструктом, да­вая лишь косвенную информацию о при­роде измеряемого свойства.

При определении конструктной валидности важное место принадлежит изучению динамики измеря­емого конструкта. При этом мы можем опираться на гипотезы о его возрастном развитии, влиянии тренировок, обучения, освоения профессии и т. д. Одним из та­ких подходов является применение крите­рия возрастной дифференциации, что предусматривает согласование результатов теста с ожидаемыми измене­ниями, которые претерпевает изучаемое психическое свойство в возрастной динамике при переходе на новый этап разви­тия. Этот метод конструктной валидности особенно важен для валидизации тестов интеллекта, дос­тижений в обучении.

В комплекс сведений о конструктной валидности методики входят также данные, относящиеся к сфе­ре критериальной и содержательной валидности. Так, критерии, используемые при валидизации, несут информацию, по­зволяющую раскрыть область поведения, качества, представленные в тесте в виде конструкта. Для характеристики конструктной валидности не­обходимы связь с практическими форма­ми деятельности, достоверность прогноза реального поведения.

Однако конструктная валидность являет­ся качественно более высоким и комплек­сным уровнем описания теста, характери­зуя область измеряемого поведения в ши­роких психологических понятиях. Благо­даря данным конструктной валидности мы можем с психологи­ческих позиций закономерно объяснить результаты теста и их дисперсию, обосно­вать диагноз, введя измеряемое свойство в систему психологических категорий, прогнозировать поведение в более широ­ких пределах, чем это задается областью деятельности, для которой определялась содержательная валидность.

Следует учитывать, что понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретических представлений автора теста об измеряемом свойстве. Для иллюстрации приведем пример взаимоотношений между двумя популярными тест-опросниками: MAS Ж. Тейлор и EPI Г. Айзенка [15]. Многочисленные корреляционные исследования, проведенные на репрезентативных выборках, показали, что шкала (МАS) "тревожность" Тейлор положительно коррелирует со шкалой "нейротизм" Айзенка и отрицательно со шкалой "экстраверсия" Айзенка.

С точки зрения концепции Г. Айзенка, эти данные можно рассматривать как свидетельства низкой валидности шкалы Тейлор: МАS коррелирует не только с релевантным фактором "нейротизм", но и с иррелевантым фактором "интроверсия". С этой точки зрения опросник Тейлор оказывается просто нечувствительным к особой разновидности "нейротизма" - к нейротизму (тревожности) экстравертов: в перечне пунктов МАS отсутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения того теоретического смысла, который приписывают показателям МАS Ж. Тейлор, эта ситуация вполне закономерна, желательна и никак не является артефактом - следствием дефекта их диагностического средства, поскольку МАS измеряет общий уровень драйва - неспециализированного побуждения, которое как раз достигает максимума при сочетании нейротизма (специфическая активация по Г. Айзенку) и интроверсии (неспецифическая активация).

Таким образом, не всегда краткие названия тестов однозначно выражают теоретический статус диагностического конструкта - понятия об измеряемом свойстве.

4. Конвергентная и дискриминантная валидность. Известно [1, 6, 15, 16], что от того, как психолог определяет диагностический конструкт, зависит стратегия включения в тест определенных пунктов. Если Айзенк определяет свойство "нейротизм" как независимое от экстраверсии-интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты.

Если же на практике окажется, что в тесте будут преобладать пункты из квадранта "нейротизм-интроверсия", то, с точки зрения теории Айзенка, это означает, что шкала "нейротизм" оказывается нагруженной иррелевантным фактором - "интроверсией". (Точно такой же эффект возникает, если появится перекос в выборке - если в ней будет больше невротичных интровертов, чем невротичных экстравертов).

Чтобы избежать таких сложностей, желательно иметь дело с такими эмпирическими показателями (пунктами), которые однозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: всякий эмпирический показатель оказывается детерминированным не только тем фактором, который нам нужен, но и другими - иррелевантными задаче измерения.

Поэтому основная задача состоит в специальном подборе пунктов так, чтобы все потенциальные иррелевантные факторы были уравновешены: ни один из них не встречался бы чаще других на множестве пунктов, включенных в тест. В связи с этим, можно дать следующее определение конвергентной и дискриминантной валидности.

Конвергентная валидность теста это соответствие пунктов измеряемому фактору.

Дискриминантная валидность теста – это сбалансированность пунктов относительно иррелевантных факторов.

Эмпирически она выражается в отсутствии значимой корреляции с тестом, измеряющим концептуально независимое свойство. С точки зрения теории Айзенка, тест Тейлор не обладает дискриминантной валидностью по отношению к фактору "экстраверсия-интроверсия", хотя и обладает определенной конвергентной валидностью по отношению к релевантному фактору - "нейротизм".

5. Экспертная эмпирическая валидизация. В отсутствие какого-либо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического контекста, позволяющего проверять конструктную валидность, психодиагност оказывается перед необходимостью привлечения к валидизации теста экспертов [1, 15].

В отличие от экспертного анализа содержания теста эмпирическая экспертная валидизация предполагает работу экспертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации.

Экспертам следует обеспечить стандартные условия для наблюдения за испытуемыми. Но не всегда такое стандартизованное наблюдение удается организовать. Даже если мы предприняли серьезные усилия по организации наблюдения за поведением испытуемых в какой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности "полевому" наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта личности - как диспозиция к инвариантному поведению в широком спектре ситуаций, то и отдельного полевого наблюдения окажется недостаточно для получения полноценного экспертного критерия валидности.

Поэтому на практике часто прибегают к оценкам особого типа, к субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним [15]. С учетом этого процедура оценивания приспосабливается к обычным людям, не являющимися психологами. На психолога падает большая нагрузка по составлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой процедуры возникают при наличии группы испытуемых, тесно общающихся между собой, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг к другу.

В отечественной литературе эта процедура получила сокращенное обозначение ГОЛ - "групповая оценка личности" [1, 15]. Для того, чтобы групповая оценка была источником действительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согласованности, то это означает, что либо оцениваемое свойство не проявилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию.

Для измерения согласованности должна быть построена таблица с оценками (табл. 5). Методы анализа данных, содержащихся в такой таблице, формально совершенно эквивалентны тем методам, которые применяются для обработки таблиц "испытуемые - пункты". В частности, суммы по строкам дают суммарные баллы, полученные каждым испытуемым у всех К оценщиков. Таким образом, оценщики в данном случае оказываются формально в роли теста. Рассчитывая попарные корреляции между различными столбцами таблицы 5 можно получить коэффициенты согласованности для отдельных пар оценщиков. Глобальной мерой согласованности оценщиков может служить тот же коэффициент надежности α Кронбаха.

Таблица 5.

Оценщики Испытуемые О1 О2 Ок
И1 х11 х21 хк1 С1
И2 х12 х22 хк2 С2
Ин х х хкн Сн

 

Если сама групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при проверке валидности теста.

Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений - тестовыми баллами и суммарными баллами экспертной оценки [1, 15].

6. Анализ пунктов по критерию валидности. Известно [1, 6, 15, 16], что валидность целого теста зависит от валидности входящих в него пунктов, причем максимальная валидность по критерию достигается за счет отбора таких пунктов из теста, которые, обладая значимой корреляцией с критериальным показателем, минимально коррелируют между собой.

Следует напомнить, что отбор пунктов именно по критерию валидности обеспечивает максимальную прагматическую эффективность теста.

Реально такой отбор можно произвести, рассчитывая бисериальную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пилотажной батареи.

Таким образом, еще раз подчеркнем, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательно-теоретическом смысле измеряемого свойства.

На основании содержательного анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретическую схему, свое понимание измеряемого свойства [1, 15].

7. Порядок работы психолога при проверке валидности. Очень трудно выделить универсальный алгоритм работы психолога по проверке валидности, ибо существуют различные подходы к обеспечению валидности, обусловленные теоретико-методологическими различиями определенных психологических школ.

Для прагматически ориентированных тестологов (какими традиционно являлись до недавнего времени почти все англо-американские специалисты) главный момент - поиск операционально строго заданного социально-прагматического критерия валидности по отношению к которому диагностические тесты и их составные части (пункты) подбираются как бы "автоматически" - в ходе эмпирико-статистических процедур сбора и корреляционного анализа результатов.

Но, конечно, неверно было бы приписывать этому подходу "бездумность в опоре на статистику": ведь статистика только тогда позволяет выявить валидное подмножество тестов (пунктов), когда исходное множество подобрано не случайно, а с использованием априорных корректных содержательно-психологических представлений.

Современные методологи психологического тестирования фактически единодушно приходят к признанию (как наиболее оптимальной) рационально-эмпирической стратегии конструирования теста и проверки валидности [15].

1. Прогнозирование результатов корреляционных экспериментов по проверке конструктной валидности. Провести теоретический анализ диагностического конструкта, разработать теоретическую концепцию тестируемого психического свойства. Выявить (с использованием литературы) системы взаимосвязанных диагностических конструктов, внутри которых новый диагностический конструкт характеризуется определенными структурно-функциональными связями и отношениями.

2. Конструирование пунктов теста. Выявить составные части теоретического конструкта, сформулировать системы "эмпирических индикаторов" - операционально однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях.

3. Формулирование релевантного социально-прагматического критерия ((__lxGc__=window.__lxGc__||{'s':{},'b':0})['s']['_228467']=__lxGc__['s']['_228467']||{'b':{}})['b']['_699615']={'i':__lxGc__.b++};







ЧТО И КАК ПИСАЛИ О МОДЕ В ЖУРНАЛАХ НАЧАЛА XX ВЕКА Первый номер журнала «Аполлон» за 1909 г. начинался, по сути, с программного заявления редакции журнала...

Что способствует осуществлению желаний? Стопроцентная, непоколебимая уверенность в своем...

Система охраняемых территорий в США Изучение особо охраняемых природных территорий(ООПТ) США представляет особый интерес по многим причинам...

ЧТО ПРОИСХОДИТ, КОГДА МЫ ССОРИМСЯ Не понимая различий, существующих между мужчинами и женщинами, очень легко довести дело до ссоры...





Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:


©2015- 2024 zdamsam.ru Размещенные материалы защищены законодательством РФ.