|
Множественная (многофакторная) регрессияУравнение множественной регрессии имеет вид СЛАД 8
, (1) где y – зависимая переменная (результативный признак); - независимые переменные (факторы). Такого рода уравнение может использоваться при изучении потребления. Тогда коэффициенты - частные производные потребления y по соответствующим факторам : в предположении, что все остальные постоянны. Множественная регрессия – один из наиболее распространенных методов в эконометрике. Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель. Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Она включает в себя два круга вопросов: - отбор факторов; - выбор вида уравнения регрессии. Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям: 1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность. Например, в модели стоимости объектов недвижимости учитывается место нахождения недвижимости; районы могут быть проранжированы. 2. Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми. Так, в уравнении предполагается, что факторы независимы друг от друга, т.е. . Тогда можно говорить, что параметр измеряет силу влияния фактора на результат y при неизменном значении фактора . Если же , то с изменением фактора , не может оставаться неизменным. Отсюда и нельзя интерпретировать как показатели раздельного влияния и на y. Пример. Рассмотрим регрессию себестоимости единицы продукции y (руб.) от заработной платы работника x (руб.) и производительности его труда z (единиц в час) . Коэффициент регрессии при переменной z показывает, что с ростом производительности труда на 1 ед. себестоимость единицы продукции снижается в среднем на 10 руб. при постоянном уровне оплаты труда. Вместе с тем параметр при x нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии при переменной x в данном случае обусловлено высокой корреляцией между x и z (). Поэтому роста заработной платы при неизменности производительности труда (если не брать во внимание проблемы инфляции) быть не может. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если . Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. В результате вариация в исходных данных перестает быть полностью независимой, и нельзя оценить воздействие каждого фактора в отдельности. Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий: 1. параметры линейной регрессии теряют экономический смысл; 2. оценки параметров ненадежны, что делает модель непригодной для анализа и прогнозирования. Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы были бы равны нулю. Так, для включающего три объясняющих переменных уравнения матрица коэффициентов корреляции между факторами имела бы определитель, равный единице. , т.к. . Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю: . Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы, тем меньше мультиколлинеарность факторов. Проверка мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных H0: . Доказано, что величина имеет приближенное распределение с степенями свободы. Если фактическое значение превосходит табличное (критическое) , то гипотеза H0 отклоняется. Это означает, что , недиагональные ненулевые коэффициенты корреляции указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной. Как и в парной зависимости, возможны разные виды уравнений множественной регрессии: линейные и нелинейные. Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции. В линейной множественной регрессии параметры при x называются коэффициентами "чистой" регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленных на среднем уровне. Пример. Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением: , где y – расходы семьи за месяц на продукты питания, тыс. руб.; - месячный доход на одного члена семьи, тыс. руб.; - размер семьи, человек. Анализ данного уравнения позволяет сделать вывод: с ростом дохода на одного члена семьи на 1 тыс. рублей расходы на питание возрастут в среднем на 350 рублей при том же среднем размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 рублей.
Параметр a не подлежит экономической интерпретации. В степенной функции (2) коэффициенты являются коэффициентами эластичности. Они показывают, на сколько процентов изменяется в среднем результат с изменением соответствующего фактора на 1% при неизменности действия других факторов. Этот вид уравнения регрессии получил наибольшее распространение в производственных функциях, в исследованиях спроса и потребления. Пример. Предположим, что при исследовании спроса на мясо получено уравнение , где y – количество спрашиваемого мяса; - цена; - доход. Следовательно, рост цен на 1% при том же доходе вызывает снижение спроса в среднем на 2,63%. Увеличение дохода на 1% обусловливает при неизменных ценах рост спроса на 1,11%.
Возможны и другие линеаризуемые функции для построения уравнения множественной регрессии: - экспонента ; (3) - гипербола , (4) которая используется при обратных связях признаков. Стандартные компьютерные программы обработки регрессионного анализа позволяют перебирать различные функции и выбирать ту из них, для которой остаточная дисперсия и ошибка аппроксимации минимальны, а коэффициент детерминации максимален. Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии: СЛАД 9
. (5) Для ее решения может быть применен метод определителей , (6) где Δ – определитель матрицы; - частные определители, которые получаются путем замены соответствующего столбца матрицы данными левой части системы. При этом определитель системы . (7) СЛАД 10
Другой вид уравнений множественной регрессии – уравнение регрессии в стандартизованном масштабе , (8) где - стандартизованные переменные: , , (9) для которых среднее значение равно нулю , а среднее квадратическое отклонение равно единице ; β – стандартизованные коэффициенты регрессии. К уравнению множественной регрессии в стандартизованном масштабе применим МНК. Стандартизованные β – коэффициенты определяются из следующей системы уравнений: СЛАД 11
(10) Стандартизованные коэффициенты регрессии показывают, на сколько сигм изменится в среднем результат, если соответствующий фактор изменится на одну сигму при неизменном среднем уровне других факторов. Стандартизованные коэффициенты сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов "чистой" регрессии, которые несравнимы между собой. Пример. Пусть функция издержек производства y (тыс. руб.) характеризуется уравнением вида , где - основные производственные фонды (ОПФ) (тыс. руб.); - численность занятых в производстве (чел.). Анализируя его, видим, что при той же занятости дополнительный рост стоимости ОПФ на 1 тыс. руб. влечет за собой увеличение затрат в среднем на 1,2 тыс. руб., а увеличение численности занятых на одного человека способствует при той же технической оснащенности предприятий росту затрат в среднем на 1,1 тыс. руб. Однако это не означает, что фактор оказывает более сильное влияние на издержки производства по сравнению с фактором . Такое сравнение возможно, если обратиться к уравнению регрессии в стандартизованном масштабе. Предположим, оно выглядит так: . Это означает, что с ростом фактора на одну сигму при неизменной численности занятых затраты на продукцию увеличиваются в среднем на 0,5 сигмы. Так как (0,5<0,8), то можно заключить, что большее влияние на производство продукции оказывает фактор , а не , как кажется из уравнения регрессии в натуральном масштабе. В парной зависимости стандартизованный коэффициент регрессии есть не что иное, как линейный коэффициент корреляции . Во множественной регрессии коэффициенты "чистой" регрессии связаны со стандартизованными коэффициентами регрессии : СЛАД 12 . (11) Это позволяет перейти от уравнения регрессии в стандартизованном масштабе к уравнению регрессии в натуральном масштабе . Параметр a определяется: СЛАД 13 . (12) Рассмотренный смысл стандартизованных коэффициентов регрессии позволяет использовать их при отсеве факторов: из модели исключаются факторы с наименьшими значениями . На основе линейного уравнения множественной регрессии могут быть найдены частные уравнения регрессии, т.е. уравнения, которые связывают результативный признак с соответствующими факторами x при закреплении других, учитываемых во множественной регрессии факторов, на среднем уровне. Частные уравнения регрессии имеют вид: СЛАД 14
(13) При подстановке в эти уравнения средних значений соответствующих факторов они принимают вид парных уравнений линейной регрессии, т.е. имеем: , (14) где (15) Частные уравнения регрессии характеризуют изолированное влияние фактора на результат, т.к. другие факторы закреплены на неизменном уровне. Это позволяет определить частные коэффициенты эластичности СЛАД 15
, (16) где - коэффициенты регрессии для фактора в уравнении множественной регрессии; - частные уравнения регрессии. Средние коэффициенты эластичности для линейной регрессии . (17) Пример. Предположим, что по ряду регионов множественная регрессия величины импорта на определенный товар y относительно отечественного его производства , изменения запасов и потребления на внутреннем рынке оказалась следующей: . При этом средние значения для рассматриваемых признаков составили: Средние показатели эластичности окажутся равными , т.е. с ростом величины отечественного производства на 1% размер импорта в среднем по совокупности регионов возрастет на 1,053% при неизменных запасах и потреблении семей. Для второй переменной коэффициент эластичности составит , т.е. с ростом изменения запасов на 1% при неизменном производстве и внутреннем потреблении величина импорта увеличивается в среднем на 0,056%. Для третьей переменной коэффициент эластичности составит , т.е. при неизменном объеме производства и величины запасов с увеличением внутреннего потребления на 1% импорт товаров возрастет в среднем по совокупности регионов на 1,987%. Средние показатели эластичности можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат. В данном примере наибольшее воздействие на величину импорта оказывает размер внутреннего потребления товара , а наименьшее – изменение запасов . На основе частных уравнений регрессии определим частные коэффициенты эластичности для каждого региона. Частные уравнения регрессии в нашем случае составят: , т.е. ; , т.е. ; , т.е. . Подставляя в данные частные уравнения фактические значения соответствующих факторов, получим значения моделируемого показателя при заданном уровне одного фактора и средних значениях других факторов. Допустим, в регионе: тогда частные коэффициенты эластичности составят: ; ; . Как видим, частные коэффициенты эластичности для региона несколько отличаются от аналогичных средних показателей по совокупности регионов. Они могут быть использованы при принятии решений относительно развития конкретных регионов. Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – коэффициента детерминации. Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком, т.е. оценивает тесноту совместного влияния факторов на результат. Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции: СЛАД 16
, (18) где - общая дисперсия результативного признака; -остаточная дисперсия для уравнения . Значение индекса множественной корреляции лежит в пределах от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному парному индексу корреляции . При правильном включении факторов в регрессионный анализ величина индекса множественной корреляции будет существенно отличаться от индекса парной зависимости. Если же включенные в уравнение факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции (различия в третьем, четвертом знаках). Отсюда можно сделать вывод о целесообразности включения в уравнение регрессии того или иного фактора. Остаточная дисперсия для уравнения регрессии . (19) При линейной зависимости признаков индекс множественной корреляции для уравнения в стандартизованном масштабе может быть представлен выражением СЛАД 17
, (20) где - стандартизованные коэффициенты регрессии; - парные коэффициенты корреляции результата с каждым фактором. Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множественной корреляции. Его можно определить через матрицу парных коэффициентов корреляции , (21) где Δ r – определитель матрицы парных коэффициентов корреляции: ; - определитель матрицы межфакторной корреляции. Этот определитель более низкого порядка остается, когда вычеркиваются из матрицы коэффициентов парной корреляции первый столбец и первая строка: . Качество построенной модели в целом оценивает коэффициент (индекс) детерминации. Коэффициент множественной детерминации рассчитывается как квадрат индекса множественной корреляции . Скорректированный индекс множественной корреляции содержит поправку на число степеней свободы, что позволяет не допустить возможного преувеличения тесноты связи. Скорректированный индекс множественной детерминации рассчитывается по формуле: СЛАД 18
, (22) где n – число наблюдений; m – число факторов. Как мы уже рассматривали раньше, ранжирование факторов, участвующих во множественной регрессии, может быть проведено через стандартизованные коэффициенты регрессии. Эта же цель может быть достигнута с помощью частных коэффициентов корреляции для линейных связей. При нелинейных взаимосвязях исследуемых признаков эту функцию выполняют частные индексы детерминации. Кроме того, частные показатели корреляции широко используются при решении проблемы отбора факторов: целесообразность включения того или иного фактора в модель доказывается величиной показателя частной корреляции. Частные коэффициенты (или индексы) корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии. Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет дополнительного включения в анализ нового фактора к остаточной дисперсии, имевшей место до введения его в модель. Частные коэффициенты (индексы) корреляции определяются по формуле СЛАД 19
, (23) где - множественный коэффициент детерминации всего комплекта p факторов с результатом;
- тот же показатель детерминации, но без введения в модель фактора . При i =1 формула коэффициента частной корреляции примет вид . Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка. Соответственно, коэффициенты парной корреляции называются коэффициентами нулевого порядка. Коэффициенты частной корреляции более высоких порядков можно определить через коэффициенты частной корреляции более низких порядков по рекуррентной формуле СЛАД 20
. (24) Частные коэффициенты корреляции изменяются в пределах от -1 до 1. 4. Методы изучения качественных признаков
При наличии соотношения между вариацией качественных признаков говорят об их ассоциации, взаимосвязанности. Для оценки связи в этом случае используют ряд показателей. Коэффициент ассоциации и контингенции. Для определения тесноты связи двух качественных признаков, каждый из которых состоит только из двух групп, применяются коэффициенты ассоциации и контингенции. Для их вычисления строится таблица, которая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным, то есть состоящим из двух качественно отличных друг от друга значений признака (например, изделие годное или бракованное). СЛАД 21
Таблица для вычисления коэффициентов ассоциации и контингенции
Коэффициенты вычисляются по формулам: ассоциации:
контингенции:
Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если 0,5 или 0,3. Пример. Исследуем связь между участием населения одного из городов в экологи- ческих акциях и уровнем его образования. Результаты обследования характеризуются следующими данными: СЛАД 22
Что делать, если нет взаимности? А теперь спустимся с небес на землю. Приземлились? Продолжаем разговор... Что вызывает тренды на фондовых и товарных рынках Объяснение теории грузового поезда Первые 17 лет моих рыночных исследований сводились к попыткам вычислить, когда этот... Что будет с Землей, если ось ее сместится на 6666 км? Что будет с Землей? - задался я вопросом... Что делает отдел по эксплуатации и сопровождению ИС? Отвечает за сохранность данных (расписания копирования, копирование и пр.)... Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:
|