При застосуванні методу найменших квадратів передбачається, що значення випадкової змінної попарно некорельовані, або вони попарно незалежні у ймовірностному розумінні. Якщо ж змінні, які обурені, містять тренд або циклічні коливання, то послідовні обурення, які діють у різні моменти часу, корельовані. Такий вид кореляції називається автокореляцією залишків або обурень.
Автокореляція залишків утрудняє застосування класичних методів аналізу часових рядів. У моделях регресії, що описують залежності між випадковими значеннями взаємозалежних величин, вона знижує ефективність застосування МНК.
Для визначення автокореляції залишків використовують критерій Дарбіна-Уотсона.
Приклад 3.
Провести перевірку параболічної функції, яка побудована в прикладі 1, на наявність автокореляції залишків.
Розв’язок.
Параболічна функція, яка побудована в прикладі 1, має вигляд: .
Для перевірки її на наявність автокореляції за допомогою критерію Дарбіна-Уотсона розраховується d- статистика за формулою (7):
|
|
, (7)
де , – фактичні значення показника, – відповідні теоретичні значення показника.
Для того, щоб розрахувати d- статистику побудуємо допоміжну таблицю:
Таблиця 6 - Розрахунок d- статистики
і | |||||||
1 | 12,1 | 12,2251 | -0,1251 | 0,01565 | |||
2 | 12,9 | 12,8445 | 0,0555 | -0,1251 | 0,1806 | 0,032616 | 0,00308 |
3 | 13,7 | 13,4437 | 0,2563 | 0,0555 | 0,2008 | 0,040321 | 0,06569 |
4 | 13,9 | 14,0227 | -0,1227 | 0,2563 | -0,379 | 0,143641 | 0,015055 |
5 | 14,5 | 14,5815 | -0,0815 | -0,1227 | 0,0412 | 0,001697 | 0,006642 |
6 | 15,1 | 15,1201 | -0,0201 | -0,0815 | 0,0614 | 0,00377 | 0,000404 |
7 | 15,7 | 15,6385 | 0,0615 | -0,0201 | 0,0816 | 0,006659 | 0,003782 |
8 | 16,1 | 16,1367 | -0,0367 | 0,0615 | -0,0982 | 0,009643 | 0,001347 |
9 | 16,6 | 16,6147 | -0,0147 | -0,0367 | 0,022 | 0,000484 | 0,000216 |
10 | 17,1 | 17,0725 | 0,0275 | -0,0147 | 0,0422 | 0,001781 | 0,000756 |
0,240612 | 0,112623 |
За допомогою формули (7) розраховуємо d – статистику:
Обчислене значення d порівнюється зі значеннями і , знайденими по таблиці Дарбіна-Уотсона (додаток 2). Тут п – кількість спостережень, т – число факторів, – рівень значущості. У нашому випадку критичні значення статистики Дарбіна-Уотсона при 5%-ному рівні значущості, тобто при =0,05, дорівнюють: і .
Таблиця 7 – Розрахунок інтервалів
Приймаємо гіпотезу про існування додатної автокореляції | ? | Приймаємо гіпотезу про відсутність автокореляції | ? | Приймаємо гіпотезу про існування від’ємної автокореляції |
0 | 2 | 4 | ||
0 0,88 | 1,32 2 2,68 | 3,12 4 |
З таблиці 7 бачимо, що d - статистика задовольняє нерівності:
1,32 < 2,136 < 2,68,
отже приймаємо гіпотезу про відсутність автокореляції залишків.
|
|
Зауваження. Якщо значення d- статистики задовольняє нерівностям або , то при обраному рівні значущості не має можливості зробити висновок, необхідно подальше дослідження.
МУЛЬТИКОЛІНЕАРНІСТЬ
На практиці при кількісній оцінці параметрів економетричної моделі досить часто зустрічаються з проблемою взаємозв’язку між пояснюючими змінними. Якщо взаємозв’язок досить тісний, то оцінка параметрів моделі може мати велику похибку. Такий взаємозв’язок між пояснюючими змінними називається мультиколінеарністю. Мультиколінеарність змінних приводить до зміщення оцінок параметрів моделі. На основі цих оцінок неможливо зробити конкретні висновки про результати взаємозв’язку між пояснювальною і пояснюючими змінними. Тому необхідна перевірка чинників на мультиколінеарність.
Простішою формою перевірки мультиколінеарності є аналіз кореляційної матриці. Значення парних коефіцієнтів свідчить про те, будуть між собою зв’язані змінні чи ні. Але якщо в моделі більше двох чинників, питання про мультиколінеарність не може обмежуватись інформацією, що дає ця матриця. Більш загальна перевірка передбачає обчислення визначника матриці R, ().
Найбільш повне дослідження мультиколінеарності можна здійснити на основі алгоритму Феррара-Глаубера. Цей алгоритм включає три види статистичних критеріїв, на основі яких перевіряється мультиколінеарність всього масиву змінних (, хі-квадрат); кожної факторної змінної зі всіма іншими (F -статистика) і мультиколінеарність кожної пари чинників (t -статистика). Всі ці критерії при порівнянні з їх критичними значеннями дають можливість зробити конкретні висновки відносно наявності чи відсутності мультиколінеарності незалежних змінних.
Приклад 4.
Витратина харчування залежать від чинників:загальні витрати, склад сім’ї та заробіток. Треба дослідити наявність мультиколінеарностіпо алгоритму Феррара-Глаубера.
Витрати на харч., | Загальні витрати, | Склад сім ї, | Заробіток, |
22 | 45 | 1,7 | 70 |
30 | 72 | 1,9 | 105 |
45 | 131 | 2 | 172 |
62 | 228 | 3,4 | 302 |
48 | 90 | 3 | 150 |
64 | 145 | 3,6 | 205 |
76 | 225 | 4,7 | 303 |
108 | 357 | 5,2 | 480 |
65 | 136 | 4,9 | 195 |
90 | 218 | 5 | 315 |
Розв’язок.
1. Знайдемо кореляційну матрицю. Ця матриця симетрична. У нашому випадку має розмір 3х3. Вона має вигляд:
, (8)
де обчислюється за формулою
, (9)
де , , .
Обчислимо допоміжну таблицю:
Таблиця 8 - Розрахунок елементів кореляційної матриці
45 | 1,7 | 70 | 2025 | 2,89 | 4900 | 76,5 | 3150 | 119 |
72 | 1,9 | 105 | 5184 | 3,61 | 11025 | 136,8 | 7560 | 199,5 |
131 | 2 | 172 | 17161 | 4 | 29584 | 262 | 22532 | 344 |
228 | 3,4 | 302 | 51984 | 11,56 | 91204 | 775,2 | 68856 | 1026,8 |
90 | 3 | 150 | 8100 | 9 | 22500 | 270 | 13500 | 450 |
145 | 3,6 | 205 | 21025 | 12,96 | 42025 | 522 | 29725 | 738 |
225 | 4,7 | 303 | 50625 | 22,09 | 91809 | 1057,5 | 68175 | 1424,1 |
357 | 5,2 | 480 | 127449 | 27,04 | 230400 | 1856,4 | 171360 | 2496 |
136 | 4,9 | 195 | 18496 | 24,01 | 38025 | 666,4 | 26520 | 955,5 |
218 | 5 | 315 | 47524 | 25 | 99225 | 1090 | 68670 | 1575 |
1647 | 35,4 | 2297 | 349573 | 142,16 | 660697 | 6712,8 | 480048 | 9327,9 |
У нашому випадку число іспитів дорівнює 10. З таблиці 8 маємо:
Розрахуємо середні квадратичні відхилення:
Значення, що розраховані, підставимо у формулу (9):
Для даної задачі кореляційна матриця (8) має вигляд:
Елементи цієї матриці характеризують тісноту зв’язку між чинниками.
У нашому випадку Тобто, між кожною парою чинників існує зв’язок.
2. Знайдемо визначник кореляційної матриці за формулою (10):
(10)
У нашому випадку одержимо такі результати:
Знайдемо - статистику за формулою (11):
(11)
У нашому випадку число іспитів число факторів , тому формула (11), має вигляд:
При ступені свободи і рівні значущості находимо по таблиці (додаток 3) критичне значення .
|
|
Якщо , то мультиколінеарність існує, у протилежному випадку, тобто при мультиколінеарність відсутня.
У нашому випадку оскільки (), то можемо вважати що мультиколінеарність присутня.
3. Знайдемо обернену матрицю до матриці за допомогою формули (12)
, (12)
де – алгебраїчне доповнення до елемента .
Знайдені алгебраїчні доповнення підставимо у формулу (12):
4. Розрахуємо - статистику за формулою (13):
(13)
де – діагональні елементи матриці
У нашому випадку Ці значення підставимо у формулу (13). Одержимо
; ;
Фактичні значення статистики порівнюються з табличними (додаток 4) при і ступенях свободи і рівні значущості . Якщо , то змінна з іншими не корелює. У протилежному випадку тобто, якщо , змінна корелює з іншими.
У нашому випадку при рівні значущості і ступенях свободи табличне значення критерію дорівнює Оскільки усі то можна зробити висновок, що
якась змінна корелює з іншими.
5. Знайдемо часткові коефіцієнти кореляції.
Часткові коефіцієнти кореляції характеризують тісноту зв’язку між двома змінними при умові, що третя не впливає на цей зв’язок.
Частковий коефіцієнт приблизно дорівнює парному. Це свідчить про наявність мультиколінеарності між змінними та .
6. Розрахуємо значення статистик:
Табличне значення статистики при 7 ступенях свободи і рівні значущості 0,05 (додаток 5) дорівнює . Якщо , то між відповідними змінними не має мультиколінеарності. У протилежному випадку тобто, якщо , між відповідними змінними існує суттєва мультиколінеарність.
Знайдене фактичне значення критерію більш табличного значення. Можна зробити висновок, що між змінними та існує суттєва мультиколінеарність.
Таким чином, лінійна залежність між змінними є явищем мультиколінеарності і буде негативно впливати на кількісні параметри економетричної моделі. Щоб позбавитися від мультиколінеарності один з чинників треба виключити із розгляду. З подальшого розгляду виключимо, наприклад, змінну .
|
|
4 МНОЖИННА РЕГРЕСІЯ
Кожне явище в природі, економіці, суспільному житті, техніці визначається комплексом причин. На рівень розвитку одного показника можуть впливати багато факторів. Рівень впливу факторів на показник може суттєво розрізнятися. Всі ці закономірності слід враховувати під час проведення економетричного аналізу, прогнозування і планування.
При існуванні лінійної залежності пояснювальної змінної (показника) від декількох пояснюючих змінних (факторів) загальний вираз рівняння множинної регресії має вигляд (14):
(14)
Модель описує сумісний одночасний вплив факторів на показник. Задача дослідження полягає в оцінці параметрів регресії за результатами вибіркових спостережень над змінними, які включили до аналізу. Побудову моделі проводять методом найменших квадратів.
Приклад 5.
Побудувати економетричну модель, яка характеризує залежність між витратами на харчування (умовні грошові одиниці), загальними витратами (умовні грошові одиниці) та складом сім’ї (кількість членів сім’ї) на основі даних, що наведені у таблиці.
22 | 30 | 45 | 62 | 48 | 64 | 76 | 108 | 65 | 90 | |
45 | 72 | 131 | 228 | 90 | 145 | 225 | 357 | 136 | 218 | |
1,7 | 1,9 | 2 | 3,4 | 3 | 3,6 | 4,7 | 5,2 | 4,9 | 5 |
Розв’язок. Для побудови лінійної багатофакторної моделі (15)
, (15)
де – теоретичні значення показника, згідно з методом найменших квадратів параметри шукають як розв’язок системи лінійних рівнянь (16)
(16)
Допоміжні обчислення зручно проводити в таблиці:
Таблиця 9 - Розрахунок елементів системи (16)
45 | 1,7 | 22 | 2025 | 2,89 | 76,5 | 990 | 37,4 |
72 | 1,9 | 30 | 5184 | 3,61 | 136,8 | 2160 | 57 |
131 | 2 | 45 | 17161 | 4 | 262 | 5895 | 90 |
228 | 3,4 | 62 | 51984 | 11,56 | 775,2 | 14136 | 210,8 |
90 | 3 | 48 | 8100 | 9 | 270 | 4320 | 144 |
145 | 3,6 | 64 | 21025 | 12,96 | 522 | 9280 | 230,4 |
225 | 4,7 | 76 | 50625 | 22,09 | 1057,5 | 17100 | 357,2 |
357 | 5,2 | 108 | 127449 | 27,04 | 1856,4 | 38556 | 561,6 |
136 | 4,9 | 65 | 18496 | 24,01 | 666,4 | 8840 | 318,5 |
218 | 5 | 90 | 47524 | 25 | 1090 | 19620 | 450 |
1647 | 35,4 | 610 | 349573 | 142,16 | 6712,8 | 120897 | 2456,9 |
В останньому рядку записують суми чисел у стовпці. Можна знайти середні для кожного показника за формулами (17)-(19)
; (17)
; (18)
. (19)
Система (16) для визначення параметрів регресії має вигляд:
З першого рівняння можна виразити і підставити у друге та третє рівняння:
Тоді рівняння регресії (15) має вигляд
. (20)
Важливим етапом регресійного аналізу є оцінка практичної значущості моделі, яку синтезовано. Перевірку значущості моделі проводять за показниками тісноти зв’язку між ознаками і .
Множинний коефіцієнт кореляції дорівнює коефіцієнту кореляції між фактичними та теоретичними значеннями пояснювальної змінної. Його обчислюють за формулою (21)
(21)
Для обчислення множинного коефіцієнта кореляції доцільно розраховувати допоміжну таблицю:
Таблиця 10 - Розрахунок елементів коефіцієнта
45 | 1,7 | 22 | 23,83 | 484 | 568,01 | 524,33 |
72 | 1,9 | 30 | 30,39 | 900 | 923,61 | 911,73 |
131 | 2 | 45 | 41,86 | 2025 | 1752,26 | 1883,70 |
228 | 3,4 | 62 | 71,21 | 3844 | 5070,29 | 4414,77 |
90 | 3 | 48 | 42,97 | 2304 | 1846,42 | 2062,56 |
145 | 3,6 | 64 | 57,96 | 4096 | 3359,83 | 3709,70 |
225 | 4,7 | 76 | 81,70 | 5776 | 6675,38 | 6209,43 |
357 | 5,2 | 108 | 109,71 | 11664 | 12035,85 | 11848,46 |
136 | 4,9 | 65 | 67,38 | 4225 | 4540,20 | 4379,77 |
218 | 5 | 90 | 82,99 | 8100 | 6887,34 | 7469,10 |
610 | 610,01 | 43418 | 43659,19 | 43413,54 |
Згідно з формулою (21) множинний коефіцієнт кореляції дорівнює
.
Чим ближче до одиниці, тим краще дана модель описує фактичні дані. Розрахований коефіцієнт вказує на дуже точну відповідність математичної моделі фактичним даним.
Коефіцієнт детермінації дорівнює квадрату множинного коефіцієнта кореляції. Він виміряє долю загальної дисперсії відносно середнього , яку можна пояснити регресією.
У нашому випадку . Тобто 96% дисперсії показника (витрати на харчування) можна пояснити за допомогою побудованої моделі залежності від (загальних витрат) і (складу сім’ї).
Корисною є побудова інтервальних границь для коефіцієнта множинної регресії.
Інтервал довіри для множинного коефіцієнту кореляції знаходиться за формулою (22)
, (22)
де .
У нашому випадку за таблицями Ст’юдента (додаток 5) знаходимо критичну точку , тому .
Тоді надійний інтервал, знайдений за формулою (22), має вигляд або . Оскільки коефіцієнт множинної кореляції повинен знаходитись у границях від 0 до 1, то надійним інтервалом для нього буде , який вказує на дуже точний підбір моделі.
Перевірку значущості рівняння регресії роблять таким чином: за критерієм Фішера обчислюють фактичне значення -статистики (23):
. (23)
По таблиці критичних точок Фішера (додаток 4) знаходять критичне значення статистики , де, кількість спостережень, кількість факторів, – рівень значущості.
Якщо , то рівняння регресії не є значущим, коефіцієнт множинної кореляції не суттєво відрізняється від нуля. Якщо , то рівняння регресії є значущим, коефіцієнт множинної кореляції суттєво відрізняється від нуля.
У нашому випадку розрахуємо статистику за формулою (23) . За таблицями Фішера (додаток 4) знайдемо критичне значення . Оскільки , то рівняння визнають значущим.
Економічний зміст параметру bi регресії: якщо фактор зміниться на одиницю свого виміру, то показник зміниться на одиниць свого виміру при умові, що решта факторів залишається без змін.
У нашому випадку . Якщо фактор зміниться на одиницю свого виміру, то показник зміниться на одиниць свого виміру. Тобто якщо загальні витрати зростуть (або зменшаться) на 1 умовну грошову одиницю, то витрати на харчування зростуть (або зменшаться) на умовних грошових одиниць. Оскільки , то якщо фактор зміниться на 1 одиницю свого виміру, то показник зміниться на одиниць свого виміру. Тобто якщо кількість членів сім’ї зросте (або зменшиться) на 1 чоловіка, то витрати на харчування зростуть (або зменшаться) на умовних грошових одиниць.