Теорема Гаусса-Маркова

Классический метод наименьших квадратов для модели множественной регрессии

Предположим, что между несколькими факторными переменными и результативной переменной существует линейная зависимость:

где - значение - ой результативной переменной - значения факторных переменных; - неизвестные коэффициенты модели множественной регрессии; - случайные ошибки модели множественной регрессии. Неизвестные коэффициенты линейной модели множественной регрессии оцениваются с помощью классического метода наименьших квадратов (МНК), основная идея которого заключается в определении такого вектора оценки который минимизировал бы сумму квадратов отклонений (остатков) наблюдаемых значений результативной переменной от модельных значений (рассчитанных на основании построенной модели регрессии). Предположим, что была построена линейная модель множественной регрессии с двумя переменными:

Для нахождения оценок неизвестных коэффициентов данной модели регрессии необходимо минимизировать функционал вида:

В результате последующих преобразований получаем систему нормальных уравнений относительно коэффициентов для модели множественной регрессии:

Полученная система нормальных уравнений является квадратной, коэффициенты

можно найти с помощью метода Крамера или метода Гаусса. Для модели множественной регрессии в общем случае минимизируется функционал вида:

Решением системы нормальных уравнений будет МНК-оценки неизвестных коэффициентов модели множественной регрессии вида:

Коэффициент множественной детерминации R2 и R2adj

Коэффициент множественной детерминации характеризует, на сколько процентов построенная модель регрессии объясняет разброс значений результативной переменной относительно ее среднего значения. Коэффициент множественной детерминации рассчитывается как квадрат коэффициента множественной корреляции. Коэффициент множественной детерминации также называется количественной характеристикой объясненной построенной моделью множественной регрессии дисперсии результативной переменной. Чем больше значение коэффициента множественной детерминации, тем лучше модель регрессии описывает анализируемую взаимосвязь между переменными. Коэффициент множественной детерминации можно также рассчитать на основании теоремы о разложении сумм квадратов.

Рассмотрим случай модели парной регрессии:

Рассмотрим вариацию (разброс) значений вокруг среднего значения Разобьем эту вариацию на две части: объясненным регрессионным уравнением и не объясненную, т.е. связанную с ошибками Обозначим - предсказанные значения тогда:

(1)

Можно доказать, что

(2)

Обозначим левую часть равенства (2) (всю дисперсию) через TSS (Total Sum of Squares):Необъясненную дисперсию (Error Sum of Squares); RSS (Regression Sum of Squares) – объясненная часть всей дисперсии. Тогда по теореме о разложении сумм квадратов:

TSS=ESS+RSS (3)

Определение 5.1. Коэффициент детерминации или долей объясненной дисперсии называется величина:

(4)

Теперь рассмотрим случай для модели множественной регрессии. Как и в случае регрессионной модели с одной независимой переменной, вариацию можно разбить на две части: объясненную регрессионным уравнением и не объясненную (т.е. связанную с ошибками ):

(5)

где или в векторной форме:

Третье слагаемое в равенстве (5.5)(5) равно нулю в случае если

Поэтому верно равенство:

т.е.

TSS=ESS+RSS.

Так как то

Как и ранее:

Воздействие на качество дополнительно включенной в модель регрессии факторной переменной не всегда можно отделить с помощью обычного коэффициента множественной детерминации. Для этой цели рассчитывается скорректированный (adjusted) коэффициент множественной детерминации, в котором учитывается количество факторных переменных в модели регрессии:

где - количество наблюдений в выборочной совокупности; - число оцениваемых коэффициентов в модели регрессии. При большом объеме выборки значения обычного и скорректированного коэффициента множественной детерминации практически не отличаются.

Пусть

1.

2. - детерминированная матрица

3.

Тогда оценка МНК является наиболее эффективной (в смысле наименьшей дисперсии) оценкой в классе линейных несмещенных оценок (Best Linear Unbiased Estimator, BLUE). Это означает, что если любая другая допустимая оценка вектора то для всех координат векторов и МНК-оценка

(6)

Дисперсия МНК-оценки :


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: