Сдам Сам

ПОЛЕЗНОЕ


КАТЕГОРИИ







Замечание: во избежание зацикливания процесса включения исключения значимость включения устанавливается меньше значимости исключения





В ШАМР для отбора лучших структур используют

- порог критерия качества модели (связанный с уровнем значимости) и

- коррекцию формулы расчета критерия качества модели, учитывающий штраф за сложность модели.

Подход имеет недостаток в том смысле что не формализует очевидным образом выбор порога в зависимости от условий моделирования (дисперсия и параметры шума, степень коррелированности входов и тд)

А используемый механизм штрафи за сложность – (деление на n-m) мало чувствителен к условиям моделирования при больших и средних значениях n –кол. точек

 

Остается привести формулу расчета статистики Фишера (F теста) который был создан для сравнения и выводов о различие дисперсий.

 

Введем обозначения

 
 


· — сумма квадратов ошибок, - здесь

- наблюдаемые значения, - значения модели

 

· — среднеквадратичная ошибка, - в завис. от шага использования -

 

ее в методе шаговой регрессии

 

где - количество точек, - количество оцениваемых параметров модели - число степеней свободы модели, (-2). – потому что учитывается свободный член модели и одна степень свободы у среднего .

- сумма квадратов регрессии

Есть до ввода регрессора претендента в модель - ,

есть после ввода регрессора претендента в модель

и есть разница

Сумма квадратов регрессий при введении полезного аргумента увеличивается и стремится к значению

Поэтому аргумент с большим приростом - лучше.

Соответственно рассматриваются и - значение среднеквадратичной ошибки до и после ввода регрессора в модель

Тогда статистку (*) называют критерием или F-тестом Фишера. применительно к шаговой регрессии. Доказано что данная статистика распределена по закону Фишера и ее используют для определения порога отсева аргументов по значению улучшения дисперсии модели.



Вопрос:

Зачем для определения порога отсева аргументов рассматривать отношение (*) а не просто улучшение ошибки или прирост ????. – Резон в том что это отношениерасределено по известному закону Фишера и для определения состава аргументов модели привлекают механизмпроверки статистических гипотез:

При реализации процедуры включения аргумента - рассматривается гипотеза H0 , что улучшение качества модели незначимо.

То есть Н0 состоит в том что введенный аргумент - ложный.

Проверка гипотезы H0 сводиться к последовательности действий:

1. Задаемся уровнем значимости , например 0,01 или 0,05.
характеризует риск принятия неправильного решения. То есть риск введения ложного аргумента (вероятность ошибки 1 рода)

2. По специальным таблицам находим -процентную точку распределения Фишера со степенями свободы d1=1 d = n-k-2 (для формулы (**) степень свободы определяется как d1=(п-k)-(n-k-1)=1). Это значение будет являться нашим пороговым для статистики (*).

Сравниваем точку со значением расчетной статистики .
Если окажется, что , то делается вывод о значимости введенного признакаи, соответственно, его следует включить в модель (отдается предпочтение гипотезе H1 с вероятностью ошибиться).
Если же , то принимается решение о неэффективности включения переменной в модель,то есть гипотезаH0 принимается с вероятностью как не противоречащая экспериментальным данным.

( здесь p(F) = -плотность распределения Фишеровской случ величины, чем выше (боль) порог тем меньше уровень значимости - ошибк.1 род).

На рис. видим что зона допуст. расчетных значений лежат выше (в смыслесправа) порога , а соответствующая зона расчетной ошибки 1рода - (площадь под хвостом)-должна быть меньше порогового уровня уровня значения ошибки 1-ого рода - . Таким образом задаваяв Stepwise =допустим 0.05 (или соответств ) -что есть вероятность вкл. ложного аргумента (вер ош 1 рода) мы этим параметром полностью доопределяем процедуру включения аргументов в модель.

Аналогично при процедуре исключения аргументов из модели рассматривается гипотеза H0 , что ухудшение качества модели незначимо

Соответственно выбранный уровень значимости =допустим 0.1 (или соотв ) - есть вероятность исключения истинного аргумента (вер ошибки 2-го рода). Соответственно решение о принятии H0 "гипотезы о незначимости аргумента" - и исключении аргумента из модели реализуется при выполнении условия . То есть область допустимых для исключения значений лежит слева от

К

---------- ====

Л









Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:


©2015- 2019 zdamsam.ru Размещенные материалы защищены законодательством РФ.