Тест Голдфелда-Квандта
Рассматривается связь величин вида у – а + bх. Предполагается, что стандартное отклонение σi = σ(εi) пропорционально значению переменной х в этом наблюдении: п – число наблюдений. Также предполагается, что εi имеет нормальное распределение и отсутствует автокорреляция (будет рассмотрена в дальнейшем). Все п наблюдений упорядочиваются по величине х. Эта упорядоченная выборка делится на три примерно равные части объемов k, п – 2 k и k соответственно. При n = 30 k = 11, при п = 60 k = 22.
Для каждой из выборок объема k оценивается свое уравнение регрессии и находятся суммы квадратов отклонений и соответственно.
Зададим доверительную вероятность р. α = 1 – р. По F -таблицам находим граничную точку где т – число факторов модели.
Статистика F = S3 / S1.
Если F < то на уровне значимости α принимается гипотеза об отсутствии гетероскедастичности. Иначе гипотеза об отсутствии гетероскедастичности отклоняется. Для множественной регрессии тест обычно проводится для того фактора, который в максимальной степени связан с σj. При этом выбирают k > т + 1. Если нет уверенности относительно выбора фактора хj, то данный тест можно осуществить для каждого фактора.
|
|
Гетероскедастичность не позволяет получить эффективные оценки коэффициентов уравнения регрессии, что приводит к необоснованным выводам относительно качества этих оценок. Обнаружение гетероскедастичности является достаточно сложной проблемой.
Корректировка гетероскедастичности также является достаточно серьезной проблемой.
Один из возможных методов устранения гетероскедастичности – это метод взвешенных наименьших квадратов (ВНК). Для его применения необходима определенная информация либо обоснованные предположения о величине дисперсий отклонений εi, i = 1,..., п.
Метод взвешенных наименьших квадратов в случае пропорциональности неизвестных дисперсий отклонений квадратам значений независимой переменной.
Рассмотрим случай, когда дисперсии отклонений неизвестны и пропорциональны.
Уравнение линейной регрессии.
Разделим обе части этого уравнения на
Тогда
Обозначим
Тогда.
Для этого уравнения уже выполнено условие гомоскедастичности. Методом наименьших квадратов находим оценки коэффициентов β0, β1 и возвращаемся к исходному уравнению.
В случае, когда число факторов т > 1, исходное уравнение делится на переменную, которая в максимальной степени связана с.
Пример. Для предприятий области анализируется зарплата у в зависимости от количества сотрудников х. Данные по п = 30 предприятиям приведены в таблице 2.
Таблица 2 – Исходная информация для анализа
|
|
X | у | |||||
75,5 | 75,5 | 77,5 | 78,5 | |||
80,5 | 84,5 | 85,5 | 86,5 | |||
85,5 | 88,5 | |||||
93,5 | 97,5 | 102,5 | ||||
105,5 | 110,5 | 118,5 |
Уравнение линейной регрессии
Мы видим, что с ростом х разброс значений у увеличивается.
Например, при х = 100 размах вариации переменной у равен 81 – 75,5 = 5,5, а при х = 500 размах вариации переменной у равен 118,5 – 102 = 16,5. Поэтому можно ожидать наличие гетероскедастичности.
Проверим с помощью теста Голдфелда-Квандта гипотезу о наличии гетероскедастичности. Возьмем k = 12.
Доверительная вероятность р = 0,95. Тогда α = 1 – р = 1 – 0,95 = 0,05. У нас число факторов т = 1.
По F-таблицам находим граничную точку = = 2,98.
Воспользуемся надстройкой Пакет анализа пакета Excel. Заполним таблицу 3.
Таблица 3 – Расчет квадрата отклонений случайной величины
хi | yi | ei | |
75,5 | -1,15 | 1,32 | |
75,5 | -1,15 | 1,32 | |
77,5 | 0,85 | 0,72 | |
78,5 | 1,85 | 3,42 | |
3,35 | 11,22 | ||
4,35 | 18,92 | ||
80,5 | -3,94 | 15,54 | |
-2,44 | 5,96 | ||
84,5 | 0,06 | 0,00 | |
0,56 | 0,31 | ||
85,5 | 1,06 | 1,12 | |
86,5 | 2,06 | 4,24 | |
85,5 | -6,73 | 45,34 | |
88,5 | -3,73 | 13,94 | |
-2,23 | 4,99 | ||
-1,23 | 1,52 | ||
2,77 | 7,65 | ||
3,77 | 14,19 | ||
-7,03 | 49,35 | ||
93,5 | -6,53 | 42,58 | |
97,5 | -2,53 | 6,38 | |
-1,03 | 1,05 | ||
102,5 | 2,47 | 6,13 | |
4,97 | 24,75 | ||
-5,82 | 33,83 | ||
105,5 | -2,32 | 5,37 | |
-0,82 | 0,67 | ||
110,5 | 2,68 | 7,20 | |
7,18 | 51,60 | ||
118,5 | 10,68 | 114,13 |
Поясним, как заполняется таблица. Значения первых двух столбцов взяты из условия. В третьем столбце указаны отклонения ei (получены с помощью надстройки Пакет анализа пакета Excel). 4-й столбец – это квадраты чисел 3-го столбца. Результаты округляем до двух цифр после запятой.
Суммы квадратов отклонений равны соответственно
и Статистика F = S3/S1 – 343,03/ 64,11 = 5,35.
Так как F > (5,35 > 2,98), то на уровне значимости 5% принимается гипотеза о наличии гетероскедастичности.
Устраним гетероскедастичность. Предположим, что неизвестные дисперсии отклонений пропорциональны
Уравнение линейной регрессии. Разделим обе части этого уравнения на х.
Тогда
Обозначим и перейдем к уравнению Заполним таблицу 4.
Таблица 4 – Расчет переменных
х | y | t | z |
75,5 | 0,010 | 0,76 | |
75,5 | 0,010 | 0,76 | |
77,5 | 0,010 | 0,78 | |
78,5 | 0,010 | 0,79 | |
0,010 | 0,80 | ||
0,010 | 0,81 | ||
80,5 | 0,005 | 0,40 | |
0,005 | 0,41 | ||
84,5 | 0,005 | 0,42 | |
0,005 | 0,43 | ||
85,5 | 0,005 | 0,43 | |
86,5 | 0,005 | 0,43 | |
85,5 | 0,003 | 0,29 | |
88,5 | 0,003 | 0,30 | |
0,003 | 0,30 | ||
0,003 | 0,30 | ||
0,003 | 0,32 | ||
0,003 | 0,32 | ||
0,003 | 0,23 | ||
93,5 | 0,003 | 0,23 | |
97,5 | 0,003 | 0,24 | |
0,003 | 0,25 | ||
102,5 | 0,003 | 0,26 | |
0,003 | 0,26 | ||
0,002 | 0,20 | ||
105,5 | 0,002 | 0,21 | |
0,002 | 0,21 | ||
110,5 | 0,002 | 0,22 | |
0,002 | 0,23 | ||
118,5 | 0,002 | 0,24 |
Поясним, как заполняется таблица. Значения первых двух столбцов взяты из условия. В 3-м столбце указываются обратные величины чисел 1-го столбца (результат округляется до трех цифр после запятой). 4-й столбец равен частному 1-го и 2-го столбцов (результат округляется до двух цифр после запятой).
По данным 3-го и 4-го столбцов с помощью пакета Excel найдем β0 ≈ 70,66 и β1 ≈ 0,07. Тогда, то есть у = 70,66 + 0,07 x.
Метод взвешенных наименьших квадратов в случае пропорциональности неизвестных дисперсий отклонений значениям независимой переменной
Рассмотрим случай, когда дисперсии отклонений неизвестны и пропорциональны.
Уравнение линейной регрессии.
Разделим обе части этого уравнения на.
Тогда
Обозначим
Тогда.
Для этого уравнения уже выполнено условие гомоскедастичности. Методом наименьших квадратов находим оценки коэффициентов β0, β1 и возвращаемся к исходному уравнению
На практике имеет смысл применить несколько методов определения гетероскедастичности и способов ее устранения.
|
|