Оценка параметров регрессионного уравнения

Дня оценки параметров регрессионного уравнениянаиболее часто используют метод наименьших квадратов (МНК), который минимизирует сумму квадратов отклонения наблюдаемых значений от модельных значений .

Согласно принципу метода наименьших квадратов, оценки и находятся путем минимизации суммы квадратов

по всем возможным значениям и при заданных (наблюдаемых) значениях . Задача сводится к известной математической задаче поиска точки минимума функции двух переменных. Точка минимума находится путем приравнивания нулю частных производныхфункции по переменным и . Это приводит к системе уравнений

решением которой и является пара , . С огласно правилам вычисления частных производных имеем

так что искомые значения , удовлетворяют соотношениям

Эту систему двух уравнений можно записать также в виде

Эта система является системой двух линейных уравнений с двумя неизвестнымии может быть легко решена, например, методом подстановки. В результате получаем

Такое решение может существовать только при выполнении условия

что равносильно отличию от нуля определителя системы нормальных уравнений. Действительно, этот определитель равен

Последнее условие называется условием идентифицируемости модели наблюдений , и означает, что не все значения совпадают между собой. При нарушении этого условия всеточки , лежат на однойвертикальной прямой

Оценки и называют оценками наименьших квадратов. Так как известны выражения для выборочной дисперсии и выборочной ковариации , то выражение для

в этих терминах, можно представить следующим образом

= = =

= .

В матричной форме модель парной регрессии имеет вид:

где - вектор-столбец размерности наблюдаемых значений зависимой переменной;

– матрица размерности наблюдаемых значений факторных признаков. Дополнительный фактор вводится для вычисления свободного члена; - вектор-столбец размерности неизвестных, подлежащих оценке коэффициентов регрессии; - вектор- столбец размерности ошибок наблюдений

.

Решение системы нормальных уравнений в матричной форме имеет вид:

Пример 3.2.

Бюджетное обследование семи случайно выбранных семей дало следующие результаты (в тыс. $) (табл.18):

Таблица 18

Данные о накоплениях и доходах

Наблюдение Накопления доход
  Y Х
     
     
     
  3.5  
  1.5  
  4.5  
     

Требуется:

1) построить однофакторную модель регрессии

2) отобразить на графике исходные данные, результаты моделирования.

Решение.

1.Найдем параметры модели. Промежуточные расчеты приведены в таблице 19.

Таблица 19

Расчеты параметров модели

Наблюдение Накопления - Y Доход-X 2 * yx X2
      -0.643 -0.714 0.510 0.459    
      2.357 14.286 204.082 33.673    
      1.357 4.286 18.367 5.816    
  3.5   -0.143 -10.714 114.796 1.531    
  1.5   -2.143 -10.714 114.796 22.959    
  4.5   0.857 9.286 86.224 7.959    
      -1.643 -5.714 32.653 9.388    
сумма 25.5 285.00 0.000 0.000 571.429 81.786    
среднее 3.643 40.714           1739.286

,

= 3.643 - 0.143125* 40.714= -2.184.

Построена модель зависимости накопления от дохода:

, график, которой изображен на рис. 4.

Рис. 4. График модели парной регрессии.

Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблю­даемым данным проводится на основе анализа остатков - .

После построения уравнения регрессии мы можем разбить значение у, в каждом наблюдении на две составляющих – и ;

Остаток представляет собой отклонение фактического зна­чения зависимой переменной от значения данной перемен­ной, полученное расчетным путем: (). Если (), то для всех наблюдений фактические значе­ния зависимой переменной совпадают с расчетными (тео­ретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, пост­роенная по функции ) проходит через все точ­ки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак полностью обусловлен влиянием фактора .

На практике, как правило, имеет место некоторое рассеива­ние точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонения эмпирических данных от тео­ретических (). Величина этих отклонений и лежит в осно­ве расчета показателей качества (адекватности) уравнения.

При анализе качества модели регрессии используется основное положение дисперсионного анализа, согласно которому общая сумма квадратов отклонений зависимой переменной от среднего значения может быть разложе­на на две составляющие — объясненную и необъясненную уравнением регрессии дисперсии:

где - расчетные (выровненные) значения y, вычисленные по модели .

Разделив правую и левую часть данного соотношения на , получим

.

Коэффициент детерминации определяется следующим образом:

Коэффициент детерминации показывает долю вариации результативного признака, находя­щегося под воздействием изучаемых факторов, т. е. определяет, ка­кая доля вариации признака Y учтена в модели и обусловлена влия­нием на него факторов. Чем ближе к 1, тем выше качество модели.

Для оценки качества регрессионных моделей целесообразно также ис­пользовать коэффициент множественной корреляции (индекс корреляции) R

= =

Данный коэффициент является универсальным, так как он отра­жает тесноту связи и точность модели, а также может использовать­ся при любой форме связи переменных. При построении однофакторной модели он равен коэффициенту линейной корреляции .

Очевидно, что чем меньше влияние неучтенных факторов, тем лучше модель соответствует фактическим данным.

Для оценки качества регрессионных моделей целесообразно ис­пользовать среднюю относительную ошибку аппроксимации:

.

Чем меньше рассеяние эмпирических точек вокруг теоре­тической линии регрессии, тем меньше средняя ошиб­ка аппроксимации. Ошибка аппроксимации меньше 7 % свидетельствует о хорошем качестве модели.

После того как уравнение регрессии построено, выполняется проверка значимости построенного уравнения в целом и отдельных параметров.

Оценить значимость уравнения регрессии – это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и Х, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных Х для описания зависимой переменной Y

Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет. При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипо­тезе о равенстве нулю параметров регрессии, или, что то же самое, о равенстве нулю коэффициента детерминации: . Альтернативная ей гипотеза о значимости уравне­ния — гипотеза о неравенстве нулю параметров регрессии.

Для проверки значимости модели регрессии используется F-критерий Фишера, вычисляемый как отношение дисперсии исходного ряда и несме­щенной дисперсии остаточной компоненты. Если расчетное значение с n1= k и n2 = (n - k - 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.

Для модели парной регрессии:

.

В качестве меры точности применяют несмещенную оценку дис­персии остаточной компоненты, которая представляет собой отно­шение суммы квадратов уровней остаточной компоненты к величи­не (n- k -1), где k – количество факторов, включенных в модель. Квадратный корень из этой величины () называется стандартной ошибкой оценки.

.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: