Регрессионный анализ – это статистический метод исследования зависимости случайной величины Y от переменных Xj (j = 1, 2,..., k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения Xj.[2]
Важной предпосылкой построения регрессионной модели является оценка мультиколлинеарности. Как видно из парных коэффициентов корреляции (табл. 2.1.1), приведенной выше, в наших данных мультиколлинеарности не наблюдается.
Следующим шагом моей курсовой работы является проведение регрессионного анализа по каждому из кластеров. Для начала рассмотрим группу регионов, в которых наименее всего развито оказание услуг связи населению. Это группа под номером 2. Данные этого кластера приведены в таблице 3.1.
Табл. 3.1
| X1 | X2 | X3 | X4 | X5 | ||
Брянская область | -0,59135 | -0,65075 | -0,46276 | -1,02263 | -0,57139 | ||
Владимирская область | -0,18887 | -0,81461 | -0,26867 | 0,236626 | -0,7136 | ||
Ивановская область | -0,57832 | -1,1112 | -0,69186 | 0,539878 | -1,10873 | ||
Курская область | -0,48639 | -1,45368 | -0,59409
| -0,42401 | -0,13617 | ||
Орловская область | -0,60528 | -0,08706 | -0,58023 | -0,58957 | -0,64392 | ||
Республика Адыгея | -1,98988 | -1,5012 | -0,73783 | -3,10493 | -1,22581 | ||
Кабардино-Балкарская Республика | -0,70313 | -1,55363 | -0,72542 | -1,79469 | -1,03397 | ||
Республика Калмыкия | -1,48529 | -0,57373 | -0,88229 | -0,22692 | -1,96868 | ||
Карачаево-Черкесская Республика | -0,60488 | -1,1833 | -0,83268 | -0,49969 | -1,00629 | ||
Республика Марий Эл | -0,9572 | -0,5639 | -0,68165 | 0,080532 | -1,27131 | ||
Чувашская Республика | -1,11697 | -0,60978 | -0,34164 | 0,00853 | -1,03238 | ||
Республика Алтай | -1,76286 | -0,8015 | -0,77723 | -1,53453 | -0,53003 | ||
Республика Бурятия | -0,46259 | -1,1833 | -0,67289 | -0,28474 | -0,1718 | ||
Забайкальский край | 0,27592 | -2,02064 | -0,7422 | -1,46779 | -0,27583 | ||
Амурская область | 0,528411 | -1,72405 | -0,56417 | -0,01197 | 0,03086 |
Табл. 3.1. Группа регионов №2.
Где:
X1 – доходы от услуг связи населению в расчете на одного жителя (рублей);
Х2 – число квартирных телефонных аппаратов сети общего пользования на 1000 человек населения (на конец года; штук);
Х3 – средства связи (пользовательское оборудование) для оказания услуг передачи данных и телематических служб на 1000 человек (на конец года;штук);
Х4 – число абонентских терминалов сотовой связи на 1000 человек населения (на конец года; штук);
Х5 – среднедушевые доходы населения (рублей).
Далее приведена корреляционная матрица для данных показателей (таблица 3.2.):
Табл 3.2.
X1 | X2 | X3 | X4 | X5 | |
X1 | 1 | -0,40043 | 0,324542 | 0,437464 | 0,640113 |
X2 | -0,40043 | 1 | 0,256279 | 0,360102 | -0,41142 |
X3 | 0,324542 | 0,256279 | 1 | 0,358174 | 0,321892 |
X4 | 0,437464 | 0,360102 | 0,358174 | 1 | 0,024324 |
X5 | 0,640113 | -0,41142 | 0,321892 | 0,024324 | 1 |
Табл. 3.2. Корреляционная матрица для группы регионов 2.
В качестве результативного признака для регрессионного анализа возьмём показатель X1 (доходы от услуг связи населению в расчете на одного жителя), факторными же признаками будут являться все остальные признаки. Данный выбор основан на том, что довольно интересно насколько доход от услуг связи населению в каждой группе зависит от оснащенности населения средствами связи и их среднедушевого дохода.
|
|
Теперь проделаем регрессионный анализ с исключением. Все результаты представлены рисунке (Рис.3.1).
Рис. 3.1.
Рис. 3.1. Результаты регрессионного анализа для кластера 2.
Исходя из рисунка 3.1. можно построить следующее уравнение регрессии:
X1=0,114351+0,300196*X4+0,807374*X5
Необходимо проверить значимость уравнения регрессии. Для этого находим наблюдаемое значение статистики F. И получаем, что F=8,5576. Теперь найдем критическое значение статистики F на уровне значимости 0,1, оно равно 2,807. Так как наблюдаемое значение статистики F превосходит его критическое, то на уровне значимости 0,1 можно утверждать, что полученное уравнение регрессии значимое.
Далее необходимо проверить значимость коэффициентов уравнения. С вероятностью 0,1 можно утверждать, что коэффициенты при X4 и Х5 значимы. Коэффициент детерминации составил 58,8%. Следовательно, на долю вариации факторных признаков приходится большая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. А значит данная регрессионная модель имеет высокое практическое значение.
Увеличение числа абонентских терминалов сотовой связи в регионах страны с самым маленьким среднедушевым доходом на единицу ведет к увеличению дохода от услуг связи населению на одного жителя на 0,3002 единиц в этих регионах. Это обусловлено тем, что в современной ситуации от услуг связи населению, основная доля дохода приходится именно на доход от пользователей аппаратами сотовой связи. А увеличение среднедушевого дохода населения единицы своего измерения приводит к увеличению дохода от услуг связи населению на 0,8074 единицы.
Далее рассмотрим 3 кластер, в котором собраны регионы с самым высоким числом зарегистрированных сотовых терминалов на 1000 человек. Они представлены в таблице 3.3.
Табл. 3.3.
| X1 | X2 | X3 | X4 | X5 |
Калужская область | 0,504021 | 0,461877 | -0,30661 | 0,642363 | -0,02641 |
Костромская область | -0,2101 | 0,666706 | -0,67362 | 0,493102 | -0,77182 |
Рязанская область | -0,30973 | -0,48197 | -0,41606 | 0,537776 | -0,16798 |
Смоленская область | 0,212921 | 1,445053 | -0,5795 | 1,229947 | -0,10053 |
Тверская область | 1,696166 | -0,69499 | -0,55323 | 0,973471 | -0,31274 |
Ярославская область | 0,133037 | 0,805989 | -0,11691 | 0,78742 | 0,237972 |
Республика Карелия | -0,59925 | 1,107496 | -0,39271 | 0,861525 | 0,124076 |
Архангельская область | -0,48323 | 0,535616 | -0,3285 | 0,93563 | 0,949662 |
Вологодская область | -1,25709 | 0,109573 | -0,37009 | 1,182121 | 0,112941 |
Калининградская область | 0,965751 | -0,91293 | -0,4467 | 1,487475 | 0,344551 |
Мурманская область | 0,040908 | 0,915777 | -0,26138 | 2,585385 | 2,206015 |
Новгородская область | -0,7687 | 1,000985 | -0,44524 | 1,305629 | -0,0614 |
Псковская область | -0,70748 | 0,640488 | -0,71083 | 0,559849 | -0,49249 |
Астраханская область | 0,363408 | -0,1313 | -0,19352 | 1,008684 | -0,22875 |
Пермский край | 0,024615 | -0,01988 | 0,327438 | 0,19458 | 1,361659 |
Ульяновская область | 0,497602 | 0,217722 | -0,45546 | 0,332279 | -0,6627 |
Челябинская область | 0,004866 | -0,4279 | 0,96003 | 1,176865 | 0,738732 |
Республика Хакасия | 0,703485 | -1,04894 | -0,21541 | 0,580347 | -0,34201 |
Иркутская область | 0,313542 | -1,57166 | -0,16215 | 1,090672 | 0,331825 |
Табл. 3.3. Группа регионов №3.
Где:
X1 – доходы от услуг связи населению в расчете на одного жителя (рублей);
Х2 – число квартирных телефонных аппаратов сети общего пользования на 1000 человек населения (на конец года; штук);
Х3 – средства связи (пользовательское оборудование) для оказания услуг передачи данных и телематических служб на 1000 человек (на конец года; штук);
|
|
Х4 – число абонентских терминалов сотовой связи на 1000 человек населения (на конец года; штук);
Х5 – среднедушевые доходы населения (рублей).
Далее приведена корреляционная матрица для данных показателей (Табл. 3.4.):
Табл. 3.4.
X1 | X2 | X3 | X4 | X5 | |
X1 | 1 | -0,49087 | 0,027889 | -0,00173 | -0,0982 |
X2 | -0,49087 | 1 | -0,28401 | 0,127065 | 0,06861 |
X3 | 0,027889 | -0,28401 | 1 | 0,02649 | 0,498841 |
X4 | -0,00173 | 0,127065 | 0,02649 | 1 | 0,583459 |
X5 | -0,0982 | 0,06861 | 0,498841 | 0,583459 | 1 |
Табл.3.4. Корреляционная матрица для группы регионов 3.
В качестве результативного признака для регрессионного анализа опять возьмём показатель X1 (доходы от услуг связи населению в расчете на одного жителя), факторными же признаками будут являться все остальные признаки. Все результаты представлены в таблице (Рис 3.2).
Рис. 3.2.
Рис. 3.2. Результаты регрессионного анализа для кластера 3.
Исходя из таблицы (Рис. 3.2) можно построить следующее уравнение регрессии:
X1=0,115496-0,408633*X2
Необходимо проверить значимость уравнения регрессии. Для этого находим наблюдаемое значение статистики F. И получаем, что F=5,3965. Теперь найдем критическое значение статистики F на уровне значимости 0,1, оно равно 3,026. Так как наблюдаемое значение статистики F превосходит его критическое, то на уровне значимости 0,1 можно утверждать, что полученное уравнение регрессии значимое.
Далее необходимо проверить значимость коэффициентов уравнения. С вероятностью 0,1 можно утверждать, что коэффициент при X2 значим. Коэффициент детерминации составил 24,1%. Следовательно, на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. А значит данная регрессионная модель имеет низкое практическое значение.
Из уравнения регрессии можно сделать следующий вывод. При увеличении числа квартирных телефонных аппаратов на единицу своего измерения, доход от услуг связи населению уменьшается на 0, 4086 единиц.
Далее рассмотрим 4 кластер, в котором собраны регионы с самым высоким уровнем среднедушевого дохода. Они представлены в таблице 3.5.
|
|
Табл.3.5.
| X1 | X2 | X3 | X4 | X5 |
Республика Коми | 0,989746 | 1,971051 | -0,29713 | 1,036539 | 2,162429 |
Новосибирская область | 1,626847 | 0,856786 | 4,397334 | 0,208771 | 0,317826 |
Томская область | 0,887348 | 2,339742 | 0,695903 | -0,34675 | 0,522712 |
Республика Саха (Якутия) | 2,095489 | 0,956742 | -0,48027 | -1,79206 | 2,195834 |
Приморский край | 1,937893 | 0,191504 | 0,954193 | 1,223641 | 0,308282 |
Хабаровский край | 2,03486 | -0,03626 | 0,077174 | 0,091569 | 1,229947 |
Сахалинская область | 3,859169 | 1,046867 | -0,71083 | 0,166725 | 4,044573 |
Табл. 3.5. Группа регионов №4.
Где:
X1 – доходы от услуг связи населению в расчете на одного жителя (рублей);
Х2 – число квартирных телефонных аппаратов сети общего пользования на 1000 человек населения (на конец года; штук);
Х3 – средства связи (пользовательское оборудование) для оказания услуг передачи данных и телематических служб на 1000 человек (на конец года;штук);
Х4 – число абонентских терминалов сотовой связи на 1000 человек населения (на конец года; штук);
Х5 – среднедушевые доходы населения (рублей).
Далее приведена корреляционная матрица для данных показателей (Табл. 3.6.):
Табл. 3.6.
X1 | X2 | X3 | X4 | X5 | |
X1 | 1 | -0,44955 | -0,30478 | -0,1064 | 0,710283 |
X2 | -0,44955 | 1 | -0,11721 | -0,0998 | 0,116032 |
X3 | -0,30478 | -0,11721 | 1 | 0,18099 | -0,66355 |
X4 | -0,1064 | -0,0998 | 0,18099 | 1 | -0,18994 |
X5 | 0,710283 | 0,116032 | -0,66355 | -0,18994 | 1 |
Табл. 3.6. Корреляционная матрица для группы 4.
В качестве результативного признака для регрессионного анализа опять возьмём показатель X1 (доходы от услуг связи населению в расчете на одного жителя), факторными же признаками будут являться все остальные признаки. Все результаты представлены таблице (Рис. 3.3).
Рис. 3.3.
Рис.3.3. Результаты регрессионного анализа для группы 4.
Исходя из таблицы (рис. 3.3) можно построить следующее уравнение регрессии:
X1=1,705506-0,615090*X2+0,556431*X5
Необходимо проверить значимость уравнения регрессии. Для этого находим наблюдаемое значение статистики F. И получаем, что F=7,5856. Теперь найдем критическое значение статистики F на уровне значимости 0,1, оно равно 4,325. Так как наблюдаемое значение статистики F превосходит его критическое, то на уровне значимости 0,1 можно утверждать, что полученное уравнение регрессии значимое.
Далее необходимо проверить значимость коэффициентов уравнения. С вероятностью 0,1 можно утверждать, что коэффициенты при X2 и Х5 значимы. Коэффициент детерминации составил 79,1%. Следовательно, на долю вариации факторных признаков приходится большая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. А значит данная регрессионная модель имеет высокое практическое значение.
Увеличение числа квартирных телефонных аппаратов в Дальневосточном округе страны на единицу ведет к уменьшению дохода от услуг связи населению на одного жителя на 0,6151 единиц в этих регионах. Скорее всего это обусловлено тем, что чем больше квартирных телефонных аппаратов у населения, тем меньше они заинтересованы в использовании более современных и дорогостоящих средствах связи, что и вызывает уменьшение дохода. А увеличение среднедушевого дохода населения единицы своего измерения приводит к увеличению дохода от услуг связи населению на 0,5564 единицы.
И, наконец, последней будет рассмотрена группа регионов под номером 1. К ней отнесены регионы с примерно усреднёнными показателями оказываемых услуг связи и среднедушевым доходом населения. Они представлены в таблице 3.7.
Табл.3.7.
| X1 | X2 | X3 | X4 | X5 |
Белгородская область | -0,81314 | 0,004701 | -0,23073 | -0,45344 | 0,292375 |
Воронежская область | 0,259035 | 2,626501 | 2,049373 | -1,65594 | -0,48803 |
Липецкая область | -0,00392 | 1,120605 | -0,42846 | -1,00739 | 0,138393 |
Тамбовская область | -0,73434 | 0,527422 | -0,49851 | -0,46553 | -0,18643 |
Тульская область | -0,12202 | 0,309485 | -0,16871 | -0,31995 | -0,14317 |
Республика Северная Осетия - Алания | 0,506489 | 0,522507 | -0,72688 | -1,42206 | -0,63661 |
Волгоградская область | -0,52273 | -0,17063 | 2,167574 | -0,00724 | -0,30955 |
Ростовская область | 0,031626 | -0,64256 | 0,875393 | -1,0405 | 0,102443 |
Республика Башкортостан | -0,23587 | 0,125959 | 1,561248 | -0,07977 | 0,768001 |
Республика Мордовия | -0,40631 | 1,425389 | -0,5795 | -0,05506 | -1,09919 |
Удмуртская Республика | -0,58523 | -0,29189 | 0,280741 | -0,72096 | -0,71837 |
Кировская область | -0,50397 | -0,00185 | -0,45546 | -0,76563 | -0,54944 |
Оренбургская область | -0,97774 | 0,345535 | -0,06146 | -0,43452 | -0,52653 |
Пензенская область | -0,27873 | 0,048944 | -0,27378 | -0,1607 | -0,53003 |
Саратовская область | -0,10188 | 0,335703 | 0,432505 | 0,099453 | -0,88349 |
Курганская область | -0,64221 | 0,021087 | -0,52186 | -0,61795 | -0,2157 |
Алтайский край | -0,38666 | 0,853509 | 1,181839 | -0,90964 | -0,66492 |
Кемеровская область | -0,02407 | -1,42582 | 2,281397 | -0,33204 | 0,827176 |
Табл. 3.7. Группа регионов 1.
Где:
X1 – доходы от услуг связи населению в расчете на одного жителя (рублей);
Х2 – число квартирных телефонных аппаратов сети общего пользования на 1000 человек населения (на конец года; штук);
Х3 – средства связи (пользовательское оборудование) для оказания услуг передачи данных и телематических служб на 1000 человек (на конец года;штук);
Х4 – число абонентских терминалов сотовой связи на 1000 человек населения (на конец года; штук);
Х5 – среднедушевые доходы населения (рублей).
Далее приведена корреляционная матрица для данных показателей (Табл. 3.8.):
Табл. 3.8.
| X1 | X2 | X3 | X4 | X5 |
X1 | 1 | 0,215458 | 0,235416 | -0,48011 | 0,068809 |
X2 | 0,215458 | 1 | -0,11719 | -0,40711 | -0,46561 |
X3 | 0,235416 | -0,11719 | 1 | 0,017502 | 0,387714 |
X4 | -0,48011 | -0,40711 | 0,017502 | 1 | 0,07353 |
X5 | 0,068809 | -0,46561 | 0,387714 | 0,07353 | 1 |
Табл. 3.8. Корреляционная матрица для группы 1.
В качестве результативного признака для регрессионного анализа опять возьмём показатель X1 (доходы от услуг связи населению в расчете на одного жителя), факторными же признаками будут являться все остальные признаки. Все результаты представлены таблице (Рис. 3.4).
Рис. 3.4.
Рис.3.4. Результаты регрессионного анализа для группы 1.
Исходя из таблицы (Рис. 3.4) можно построить следующее уравнение регрессии:
X1=-0,524845-0,377390*X4
Необходимо проверить значимость уравнения регрессии. Для этого находим наблюдаемое значение статистики F. И получаем, что F=4,7929. Теперь найдем критическое значение статистики F на уровне значимости 0,1, оно равно 3,136. Так как наблюдаемое значение статистики F превосходит его критическое, то на уровне значимости 0,1 можно утверждать, что полученное уравнение регрессии значимое.
Далее необходимо проверить значимость коэффициентов уравнения. С вероятностью 0,1 можно утверждать, что коэффициент при X4 значим. Коэффициент детерминации составил 23,1%. Следовательно, на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. А значит данная регрессионная модель имеет низкое практическое значение.
Увеличение числа абонентских терминалов сотовой связи в рассматриваемых регионах страны на единицу ведет к уменьшению дохода от услуг связи населению на одного жителя на 0,3774 единиц в этих регионах.
Что же касательно общего уравнения регрессии по всей совокупности данных то оно будет выглядеть так (рис. 3.5):
Рис. 3.5
Рис. 3.5 Результаты регрессионного анализа для всей совокупности регионов.
X1=0,686084*X5
Необходимо проверить значимость уравнения регрессии. Для этого находим наблюдаемое значение статистики F. И получаем, что F=52,470. Так как наблюдаемое значение статистики F превосходит его критическое, то на уровне значимости 0,1 можно утверждать, что полученное уравнение регрессии значимое.
Далее необходимо проверить значимость коэффициентов уравнения. С вероятностью 0,1 можно утверждать, что коэффициент при X5 значим. Коэффициент детерминации составил 47,1%. Следовательно, на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. А значит данная регрессионная модель имеет низкое практическое значение.
Мы провели регрессионный анализ в каждом из кластеров, которые были получены в ходе кластерного анализа. В каждой из групп влияние на доход от услуг связи населению. Далее представлена сводная таблица (табл. 3.9).
Табл.3.9.
Кластеры | Уравнение регрессии | R^2 | Fнабл |
1 | X1=-0,5248-0,3774*X4 | 23,1 % | 4,7929 |
2 | X1=0,1144+0,3002*X4+0,8074*X5 | 58,8 % | 8,5576 |
3 | X1=0,1155-0,4086*X2 | 24,1 % | 5,3965 |
4 | X1=1,7055-0,6151*X2+0,5564*X5 | 79,1 % | 7,5856 |
Табл. 3.9. Сводная таблица регрессионного анализа по кластерам.
Далее рассчитаем коэффициенты эластичности для каждого показатели в каждом кластере. Коэффициент эластичности рассчитывается по следующей формуле:
Коэффициент эластичности показывает влияние каждого из факторов регрессионный модели на зависимый признак.
Ниже представлена сводная таблица, в которой рассчитаны коэффициенты эластичности по каждому из кластеров (табл. 3.10). Расчет коэффициентов эластичности представлен в таблицах расчета коэффициента эластичности по кластерам Приложения 6.
Табл. 3.10
X2 | X3 | X4 | X5 | ||
1 | - | - | -0,03916 | - | |
2 | - | - |
| 0,05484 | |
3 | -0,05004 | - | - | - | |
4 | -0,05971 | - | 0,004338 | - |
Табл. 3.10. Сводная таблица коэффициентов эластичности.
Проанализировав таблицу 3.10 можно сделать следующие выводы. Влияние факторов на доход от услуг связи населению, перечисленных в данных регрессионных моделях, невелик. Причем, число квартирных телефонных аппаратов влияет на результативный признак только в кластерах 3 и 4, то есть в регионах, где среднедушевой доход населения либо самый большой, либо усреднен. Как видно из сводной таблицы показатель средства связи (пользовательское оборудование) для оказания услуг передачи данных и телематических служб на 1000 человек(на конец года; штук) вовсе не влияет на исследуемый признак. Это обусловлено тем, что данная услуга связи устаревает и потеряла свою популярность в современном. Среднедушевой доход влияет на исследуемый признак только лишь во втором кластере, где сосредоточены регионы с его низким уровнем. Зато, число зарегистрированных абонентских терминалов сотовой связи влияет на доход от услуг связи населению в трёх кластерах: в первом, втором и четвертом. Причем, в первом кластере это единственный показатель, который влияет на результативный признак. Данная тенденция вызвана тем, что в современном обществе очень большую роль играет мобильная связь.