Множественная регрессия

Значения экономических переменных определяются обычно влиянием не одного, а нескольких объясняющих факторов. Задача оценки статистической взаимосвязи переменных у и х =(х ₁, х ₂,…, х _m) формулируется аналогично случаю парной регрессии. Ищется функция у =f(a, х)+e, где a– вектор параметров, e– случайная ошибка.

В простейшем случае анализируется линейная зависимость у от х. Уравнение множественной линейной регрессии имеет вид

у =a₀+a₁ х ₁ +a₂ х ₂ +…+a_m х _m+e. (12)

Если имеется n наблюдений факторов х и переменной у, то отклонение зависимой переменной у в j-м наблюдении от линии регрессии

e_j= у _j – a₀ – a₁ х _j1 – a₂ х _j2 – … – a_m х _jm (j=1,2,…, n).

Построение функции (12) проводится в два этапа.

На первом этапе необходимо произвести отбор факторов. Сначала вычисляются коэффициенты корреляции r _ik по формуле (2) между выборочными значениями факторов Х_i={ x _ji} и Х_k={ x _j_k}. Если | r _ik|>0.8 (наблюдается сильная линейная связь между факторами Х_i и Х_k), то один из них отбрасывается (в принципе, любой, но рекомендуется отбрасывать тот, информацию по которому труднее собрать или она менее достоверна). Затем вычисляются коэффициенты корреляции r _i_у по формуле (2) между выборочными значениями фактора Х_i={ x _ji} и Y={ y _j}. Если | r _iy|<0.2 (практически отсутствует линейная связь между фактором Х_i и анализируемым показателем Y), то и этот фактор отбрасывается.

На втором этапе для оставшихся факторов применяется метод наименьших квадратов. Метод наименьших квадратов предполагает поиск коэффициентов a_i таких, что Q=åe_j²®min. Для отыскания минимума берутся частные производные Q по искомым параметрам (мы использовали этот метод в случае однофакторной регрессии для нахождения a₀и a₁) и приравниваются к нулю. После выполнения элементарных преобразований получают так называемую систему нормальных уравнений, из которой и находятся искомые параметры.

Система нормальных уравнений для многофакторной регрессии имеет вид:

a₀ + a₁ ₁ + a₂ ₂ + … + a_m _m = ,

a₀ ₁ + a₁ + a₂ + … + a_m = , (13)

……………………………………………..

a₀ + a₁ + a₂ + … + a_m = .

Для решения системы (13) можно использовать любой метод решения системы линейных уравнений (Гаусса, Крамера и пр.). Оцененное уравнение описывает как общий тренд (тенденцию) изменения зависимой переменной у, так и отклонения от этого тренда. Проблема здесь состоит не только в том, чтобы объяснить возможно большую долю колебаний переменной у, но и отделить влияние каждого из факторов.

Для анализа статистической значимости полученных коэффициентов множественной линейной регрессии оценивают дисперсию D(a_i) и стандартные отклонения S(a_i)=ÖD(a_i) коэффициентов a_i. Аналогично (10) величина t=a_i/S(a_i), называемая t–статистикой, имеет распределение Стьюдента с (n-m-1) степенями свободы. Если число степеней свободы достаточно велико (не менее 10), то при 5%-ном уровне значимости можно приближенно считать оценку незначимой, если t–статистика по модулю меньше 1, и весьма надежной, если модуль t–статистики больше 3.

Коэффициенты множественной линейной регрессии a_i имеют большой экономический смысл. Они показывают, на сколько изменится анализируемый показатель Y при изменении фактора Х_i на единицу.

Пример 3. Рассмотрим аналитические модели спроса, используя ниже приведенные в табл.3 конкретные статистические данные обследования семей, сведенные в девять групп (с примерно одинаковым объемом потребления).

Таблица 3.

№ группы	Расход на питание (у)	Душевой доход (х ₁)	Размер семей (х ₂)	ŷ	e_j	e_j²

			1,5	333,6	99,4	9880,36
			2,1	626,5	–10,5	110,25
			2,7	928,5	–28,5	812,25
			3,2	1189,8	–76,8	5898,24
			3,4	1340,5	–34,5	1190,25
			3,6	1493,6	–5,6	31,36
			3,7
			4,0	1879,1	34,9
			3,7	2409,5	1,5	2,25
Средние	=1313,9	₁=6080,5	₂=3,1			2198,2

Рассмотрим сначала однофакторную линейную модель зависимости расходов на питание (у) от величины душевого дохода (х ₁)

ŷ = а ₀ + а ₁ х ₁,

параметры которой а ₀ и а ₁находятся по формулам (6), используя данные табл.3 и =(∑ х ₁²)/9=63989644,1, =(∑ х ₁ у)/9)=10894351. Решение: а ₀=660,06; а ₁= 0,1075. Получаем уравнение регрессии ŷ =660,06 + 0,1075 х ₁.

Затем вычисляются средняя квадратическая ошибка выборки (корень квадратный из дисперсии у)

S_у=√(∑(у – у)²)/n,

средняя квадратическая ошибка уравнения (4) S_ŷ =√(∑(у – ŷ)²)/n и коэффициент детерминации R_ŷх1 =√1 – S_ŷ²/ S_у².

В нашем примере S_у²=454070, S_ŷ²=63846, следовательно

R_ŷх1 =√1 – 63846/454070 =0,927.

Полученное значение свидетельствует, что связь между расходами на питание и душевым доходом очень тесная.

Величина R²_ŷх₁показывает долю изменения результативного признака под воздействием факторного признака. В нашем примере R²_ŷх₁ =0,859; это означает, что фактором душевого дохода можно объяснить почти 86% изменения расходов на питание.

Рассмотрим теперь двухфакторную линейную модель зависимости расходов на питание (у) от величины душевого дохода (х ₁) и размера семьи (х ₂)

ŷ = а ₀ + а ₁ х ₁ + а ₂ х ₂.

Параметры модели а ₀, а ₁и а ₂находятся посредством решения следующей системы нормальных уравнений:

а ₀ + х ₁ а ₁ + х ₂ а ₂= у

х ₁ а ₀ + а ₁ + х ₁ х ₂ а ₂= ух ₁

х ₂ а ₀ + х ₁ х ₂ а ₁+ а ₂= ух ₂,

которая также формируется с применением метода наименьших квадратов (средние величины х ₁ х ₂, и ух ₂вычисляются аналогично однофакторной модели). Получаем систему