Средняя ошибка аппроксимации

Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии. Чем меньше эти отличия, тем ближе теоретические значения к эмпирическим данным, тем лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака каждому наблюдению представляет собой ошибку аппроксимации. В отдельных случаях ошибка аппроксимации может оказаться равной нулю. Отклонения (y) несравнимы между собой, исключая величину, равную нулю. Так, если для одного наблюдения y  = 5, а для другого – 10, то это не означает, что во втором случае модель дает вдвое худший результат. Для сравнения используются величины отклонений, выраженные в процентах к фактическим значениям. Например, если для первого наблюдения y = 20, а для второго y = 50, ошибка аппроксимации составит 25 % для первого наблюдения и 20 % – для второго.

Поскольку (y) может быть величиной как положительной, так и отрицательной, ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.

Отклонения (y) можно рассматривать как абсолютную ошибку аппроксимации, а

 – как относительную ошибку аппроксимации. Для того, чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, находят среднюю ошибку аппроксимации как среднюю арифметическую простую

.                                               (2.38)

По нашим данным представим расчет средней ошибки аппроксимации для уравнения Y = 6,136 × Х 0,474 в следующей таблице.

Таблица. Расчет средней ошибки аппроксимации

y yx y
6 6,135947 -0,135946847 0,022658
9 8,524199 0,475801308 0,052867
10 10,33165 -0,331653106 0,033165
12 11,84201 0,157986835 0,013166
13 13,164 -0,163999272 0,012615
Итого     0,134471

 

A = (0,1345 / 5) × 100 = 2,69 %, что говорит о хорошем качестве уравнения регрессии, ибо ошибка аппроксимации в пределах 5-7 % свидетельствует о хорошем подборе модели к исходным данным.

Возможно и другое определение средней ошибки аппроксимации:

                                             (2.39)

Для нашего примера эта величина составит:

.

Для расчета средней ошибки аппроксимации в стандартных программах чаще используется формула (2.39).

Аналогично определяется средняя ошибка аппроксимации и для уравнения параболы.

 

№11

 

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1) быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то нужно придать ему количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости: районы могут быть проранжированы);

2) не должны быть коррелированны между собой и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, когда ryx 1 < rx 1 x 2, для зависимости y = a + b 1 × x 1 + b 2 × x 2 + e, может привести к нежелательным последствиям – система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии.

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель, и параметры уравнения регрессии оказываются неинтерпретируемыми. Так, в уравнении y = a + b 1 × x 1 + b 2 × x 2 + e, предполагается, что факторы x 1 и x 2 независимы друг от друга, т.е. rx 1 x 2 = 0. Тогда можно говорить, что параметр b 1 измеряет силу влияния фактора x 1 на результат y при неизменном значении фактора x 2. Если же rx 1 x 2 = 1, то с изменением фактора x 1 фактор x 2 не может оставаться неизменным. Отсюда b 1 и b 2 нельзя интерпретировать как показатели раздельного влияния x 1 и x 2 на y.

Пример 3.2. При изучении зависимости y = f (x, z, v) матрица парных коэффициентов корреляции оказалась следующей:

 

  y x z v
y 1      
x 0,8 1    
z 0,7 0,8 1  
v 0,6 0,5 0,2 1

 

Очевидно, что факторы x и z дублируют друг друга. В анализ целесообразно включить фактор z, а не x, так как корреляция z, с результатом y слабее, чем корреляция фактора x с y (ryz < ryx), но зато слабее межфакторная корреляция rzv < rxv . Поэтому в данном случае в уравнение множественной регрессии включаются факторы z, и v.

По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы всегда будут действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.

Если рассматривается регрессия y = a + b × x + c × z + d × v + e, то для расчета параметров с применением МНК предполагается равенство

S 2 y = S 2факт + S 2e,

где S2 y – общая сумма квадратов отклонений ; S 2факт – факторная (объясненная) сумма квадратов отклонений ; S 2 e – остаточная сумма квадратов отклонений .

В свою очередь, при независимости факторов друг от друга выполнимо равенство

S2факт = S 2 x + S 2 z + S 2 v,

где S 2 x, S 2 z, S 2 v – суммы квадратов отклонений, обусловленные влиянием соответствующих факторов.

Если же факторы интеркоррелированы, то данное равенство нарушается.

Включение в модель мультиколлинеарных факторов нежелательно по следующим причинам:

– затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;

– оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величина, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

Если бы факторы не коррелировали между собой, то матрицы парных коэффициентов корреляции между ними была бы единичной, поскольку все недиагональные элементы rxixj (xi ¹ xj) были бы равны нулю. Так, для уравнения, включающего три объясняющих переменных,

y = a + b 1 × x 1 + b 2 × x 2 + b 3 × x3 + e,

матрица коэффициентов корреляции между факторами имела бы определитель, равный единице

,

поскольку rx1x1 = rx2x2 = rx3x3 = 1 и rx1x2 = rx1x3 = rx2x3 = 0.

Если же между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю

.

Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

Оценка значимости мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных H 0: Det ï R ï = 1. Доказано, что величина  имеет приближенное распределение c2 с df = m × (m – 1)/2 степенями свободы. Если фактическое значение c2 превосходит табличное (критическое): c2факт > c2табл( df,a ) то гипотеза H 0 отклоняется. Это означает, что Det ï R ï ¹ 1, недиагональные ненулевые коэффициенты корреляции указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.

Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение коэффициента множественной детерминации к единице, тем сильна проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов R 2 x 1ï x 2 x 3… xp; R 2 x 2ï x 1 x 3… xp и т.п., можно выделить переменные, ответственные за мультиколлинеарность, следовательно, можно решать проблему отбора факторов, оставляя в уравнении факторы с минимальной величиной коэффициента множественной детерминации.

Имеется ряд подходов преодоления сильной межфакторной корреляции. Самый простой из них состоит в исключении из модели одного или нескольких факторов. Другой путь связан с преобразованием факторов, при котором уменьшается корреляция между ними. Например, при построении модели на основе рядов динамики переходят от первоначальных данных к первым разностям уровней D y = ytyt–1, чтобы исключить влияние тенденции, или используются такие методы, которые сводят к нулю межфакторную корреляцию, т.е. переходят от исходных переменных к их линейным комбинациям, не коррелированным друг с другом (метод главных компонент).

Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если y = f (x 1, x 2, x 3). то можно построить следующее совмещенное уравнение:

y = a + b 1 × x 1 + b 2 × x 2 + b 3 × x 3 + b 12 × x 1 × x 2 + b 13 × x 1 × x 3 + b 23 × x 2 × x 3 + e.

Рассматриваемое уравнение включает эффект взаимодействия первого порядка. Можно включать в модель и взаимодействие более высоких порядков, если будет доказана его статистическая значимость, например включение взаимодействия второго порядка b 123 × x 1× x 2 × x 3 и т.д. Как правила, взаимодействие третьего и более высоких порядков оказывается статистически незначимым; совмещенные уравнения регрессии ограничиваются взаимодействием первого и второго порядков. Но и оно может оказаться несущественным. Тогда нецелесообразно включать в модель взаимодействие всех факторов и всех порядков. Так, если анализ совмещенного уравнения показал значимость только взаимодействия факторов x 1×и x 3, то уравнение будет иметь вид:

y = a + b 1 × x 1 + b 2 × x 2 + b 3 × x 3 + b 13 × x 1 × x 3 + e.

Взаимодействие факторов x 1×и x 3 означает, что на разных уровнях фактора x 3 влияние фактора x 1×на y будет неодинаково, т.е. оно зависит от значений фактора x 3. На рис. 3.1 взаимодействие факторов представляется непараллельными линиями связи x 1×с результатом y. И, наоборот, параллельные линии влияния фактора x 1×на y при разных уровнях фактора x 3 означают отсутствие взаимодействия факторов x 1×и x 3.

Рис. 3.1. Графическая иллюстрация взаимодействия факторов

Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений (комбинаций азота и фосфора).

Решению проблемы устранения мультиколлинеарности факторов может помочь и переход к уравнениям приведенной формы. С этой целью в уравнение регрессии подставляют рассматриваемый фактор, выраженный из другого уравнения.

Пусть, например, рассматривается двухфакторная регрессия вида yx = a + b 1 × x 1 + b 2 × x 2, для которой факторы x 1×и x 2 обнаруживают высокую корреляцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии совместно с другим уравнением, в котором фактор (например, x 2) рассматривается как зависимая переменная. Предположим, что x 2 = A + B × y + C × x 3. Подставив это уравнение в искомое вместо x 2, получим:

yx = a + b 1 × x 1 + b 2 × (A + B × y + C × x 3)

или

yx × (1 – b 2 × B) = (a + b 2 × A) + b 1 × x 1 + C × b 2 × x 3.

Если (1 – b 2 × B) ¹ 0, то, разделив обе части равенства на (1 – b 2 × B), получим уравнение вида

,

которое принято называть приведенной формой уравнения для определения результативного признака y. Это уравнение может быть представлено в виде

yx = a ’ + b1 × x 1 + b3 × x 3.

К нему для оценки параметров может быть применен метод наименьших квадратов.

Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Подходы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно к разным методикам. В зависимости от того, какая методика построения уравнения регрессии принята, меняется алгоритм её решения на компьютере.

Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:

– метод исключения;

– метод включения;

– шаговый регрессионный анализ.

Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты – отсев факторов из полного его набора (метод исключения), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ).

На первый взгляд может показаться, что матрица парных коэффициентов корреляции играет главную роль в отборе факторов. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать вопрос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результатом. Матрица частных коэффициентов корреляции наиболее широко используется в процедуре отсева факторов. Отсев факторов можно проводить и по t -критерию Стьюдента для коэффициентов регрессии: из уравнения исключаются факторы с величиной t -критерия меньше табличного. Так, например, уравнение регрессии составило:

y = 25 + 5 x 1 + 3 x 2 + 4 x 3 + e.

(4,0) (1,3) (6,0)

В скобках приведены фактические значения t -критерия для соответствующих коэффициентов регрессии, как правило, при t < 2 коэффициент регрессии незначим и, следовательно, рассматриваемый фактор не должен присутствовать в регрессионной модели. В данном случае – это фактор x 2.

При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной вариации очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F -критерий меньше табличного значения.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: