Нами исследуется совокупность 62 регионов, каждый из которых характеризуется по 5 замеренным на нем признакам Х. Четыре признака из них характеризуют степень оснащенности населения средствами связи и среднедушевой доход населения, а пятый – показатель дохода от услуг связи, предоставляемых населению. Данные по эти признакам приведены в Приложении 1. Вот эти признаки:
X1 – доходы от услуг связи населению в расчете на одного жителя (рублей);
Х2 – число квартирных телефонных аппаратов сети общего пользования на 1000 человек населения (на конец года; штук);
Х3 – средства связи (пользовательское оборудование) для оказания услуг передачи данных и телематических служб на 1000 человек (на конец года;штук);
Х4 – число абонентских терминалов сотовой связи на 1000 человек населения (на конец года; штук);
Х5 – среднедушевые доходы населения (рублей).
Перед началом работы и анализа данных необходимо выявить наличие выбросов, и если они могут повлиять на результаты анализа, удалить их из таблицы исходных данных. Графики исследования на выбросы по признакам X1 и X2, по признакам X1 и X3, и, наконец, по признакам X4 и X5 приведены на рисунках в Приложении 2. Проведя анализ по этим диаграммам можно сделать следующие выводы.
|
|
Камчатская область является выбросом по трем признакам: X1, X2, X5, следовательно, наличие данных по этому региону может повлиять на результаты дальнейшего анализа. Поэтому, Камчатская область будет удалена из массива исходных данных.
Остальные выбросы определяются по одному или по двум признакам, поэтому можно сделать вывод о том, что эти выбросы обусловлены влиянием посторонних факторов и они не окажут воздействия на результаты дальнейшего анализа. Поэтому из таблицы исходных данных они удалены не будут.
В результате для дальнейшей работы будут использованы данные, указанные в таблице Приложения 3.. Перед началом исследования и разбиения объектов на кластеры необходимо провести проверку данных на мультиколлинеарность. Парные коэффициенты корреляции приведены в Табл. 1.1.
Табл. 1.1
X1 | X2 | X3 | X4 | X5 | |
X1 | 1 | 0,26315 | 0,25601 | 0,26674 | 0,68608 |
X2 | 0,26315 | 1 | 0,19883 | 0,18494 | 0,31769 |
X3 | 0,25601 | 0,19883 | 1 | 0,05359 | 0,21421 |
X4 | 0,26674 | 0,18494 | 0,05359 | 1 | 0,3323 |
X5 | 0,68608 | 0,31769 | 0,21421 | 0,3323 | 1 |
Табл 1.1 Парные коэффициенты корреляции.
Как видно из таблицы (Табл. 1.1), между данными нет слишком сильных взаимосвязей, следовательно, построенные кластерные модели будут адекватно отображать действительность.
Так как наши показатели имеют разные меры измерения, то для дальнейшего кластерного анализа нам требуется простандартизировать исходные данные. Таблица стандартизированных данных представлена в Приложении 3.
|
|
Евклидова Метрика
Теперь, когда наши данные готовы к использованию, можно провести кластерный анализ. Для этого используем методы ближнего и дальнего соседа, а также методы Варда и k-средних.
В кластерном анализе, как известно более распространены иерархические процедуры. Расстояние между исследуемыми объектами будет определяться по обычному невзвешенному Евклидову расстоянию.
После проведенного кластерного анализа было получено три дендрограммы. Наиболее точное разбиение на кластеры дает метод Варда, которая приведена ниже на рис. 2.1.1.
Рис 2.1.1
Рис 2.1.1 Дендрограмма метода Варда.
Проанализировав рисунок 2.1.1, можно прийти к выводу, что здесь наблюдается три кластера. Рассмотрим более подробно какие объекты принадлежат каждому из кластеров:
К первому кластеру относятся Сахалинская область, Республика Саха (Якутия) Хабаровский край, Приморский край, Челябинская область, Самарская область, Пермский край, Мурманская область, Республика Коми, Кемеровская область, Красноярский край, Алтайский край, Ростовская область, Республика Башкортостан, Волгоградская, Новосибирская, Томская и Воронежская области.
Во второе объединение включены Амурская область, Республика Хакасия, Иркутская область, Калининградская область, Тверская область, Волгоградская область, Архангельская область, Новгородская область, Республика Карелия, Смоленская область, Республика Мордовия, Псковская, Костромская, Ульяновская, Астраханская, Ярославская, Калужская, Саратовская, Пензенская область, Тульская, Рязанская, Владимирская области.
В третий кластер вошли Республика Алтай, Республика Адыгея, Забайкальский край, Кабардино-Балкарская Республика, Карачаево-Черкесская Республика, Республика Бурятия, Курская область, Республика Калмыкия, Чувашская Республика, Республика Марий Эл, Ивановская область, Республика Северная Осетия-Алания, Липецкая, Курганская, Кировская, Орловская, Брянская, Оренбургская, Тамбовская, Белгородская области и Удмуртская Республика.
Результаты, полученные методами ближнего и дальнего соседа, приведены на рисунках Приложения 4. Причем, метод ближнего соседа не дал четкого разбиения данных на кластеры, а с помощью метода дальнего соседа мы получили всего 2 кластера. Очевидно, что более целесообразно использовать проанализированную выше дендрограмму метода Варда (рис.2.1.1).
Метод k-средних.
После того, как мы выяснили количество кластеров, можно использовать для дальнейшего анализа метод k-средних. Особенность метода k-средних состоит в том, что он строит k насколько можно различных кластеров. С помощью Евклидовой метрики и метода Варда мы получили разбиение на 3 объединения. Но я считаю, что более целесообразным будет разбить данные на 4 кластера.
Графическое изображение метода указано на рисунке 2.1.2, приведенном ниже. На нем представлены график средних значений каждого и 4х полученных кластеров.
Рис 2.2.1.
Рис 2.2.1. График средних для каждого кластера.
Определим принадлежность каждого из показателей к нужной группе и соответствующие расстояния до центра объединения. Соответствующие таблицы представлены в Приложении 5 в таблицах 1, 2, 3 и 4. Ниже представлена сводная таблица (табл.2.2.1), в которой представлены все кластеры и расстояния.
Табл. 2.2.1
| X1 | X2 | X3 | X4 | X5 | CASE_NO | CLUSTER | DISTANC | ||
Белгородская область | -0,8131352 | 0,004701 | -0,2307317 | -0,4534437 | 0,2923749 | 1 | 1 | 0,46 | ||
Брянская область | -0,5913546 | -0,6507491 | -0,4627552 | -1,0226327 | -0,5713877 | 2 | 2 | 0,27 | ||
Владимирская область | -0,1888711 | -0,8146117 | -0,2686726 | 0,2366258 | -0,7135984 | 3 | 2 | 0,51 | ||
Воронежская область | 0,2590349 | 2,6265014 | 2,0493733 | -1,6559409 | -0,4880339 | 4 | 1 | 1,39 | ||
Ивановская область | -0,5783203 | -1,1112028
| -0,6918601 | 0,5398779 | -1,108734 | 5 | 2 | 0,57 | ||
Калужская область | 0,5040206 | 0,4618774 | -0,3066136 | 0,6423635 | -0,026406 | 6 | 3 | 0,29 | ||
Костромская область | -0,2101012 | 0,6667056 | -0,6736193 | 0,4931024 | -0,7718189 | 7 | 3 | 0,57 | ||
Курская область | -0,486389 | -1,4536755 | -0,5940892 | -0,4240119 | -0,1361659 | 8 | 2 | 0,37 | ||
Липецкая область | -0,0039223 | 1,1206048 | -0,4284624 | -1,0073912 | 0,1383929 | 9 | 1 | 0,59 | ||
Орловская область | -0,6052776 | -0,087062 | -0,5802262 | -0,5895655 | -0,6439247 | 10 | 2 | 0,44 | ||
Рязанская область | -0,3097347 | -0,4819707 | -0,4160586 | 0,5377756 | -0,1679804 | 11 | 3 | 0,40 | ||
Смоленская область | 0,2129211 | 1,4450526 | -0,5794965 | 1,2299473 | -0,1005337 | 12 | 3 | 0,63 | ||
Тамбовская область | -0,7343369 | 0,5274224 | -0,4985072 | -0,4655317 | -0,1864327 | 13 | 1 | 0,45 | ||
Тверская область | 1,6961655 | -0,694992 | -0,5532297 | 0,9734706 | -0,3127362 | 14 | 3 | 0,86 | ||
Тульская область | -0,122021 | 0,3094853 | -0,1687128 | -0,3199497 | -0,1431651 | 15 | 1 | 0,29 | ||
Ярославская область | 0,1330367 | 0,8059887 | -0,1169088 | 0,7874199 | 0,2379722 | 16 | 3 | 0,32 | ||
Республика Карелия | -0,5992542 | 1,1074958 | -0,3927103 | 0,8615249 | 0,1240764 | 17 | 3 | 0,53 | ||
Республика Коми | 0,9897458 | 1,9710513 | -0,2971283 | 1,0365387 | 2,162429 | 18 | 4 | 0,92 | ||
Архангельская область | -0,4832291 | 0,5356156 | -0,3285026 | 0,9356298 | 0,9496617 | 19 | 3 | 0,46 | ||
Вологодская область | -1,2570915 | 0,109573 | -0,3700917 | 1,1821207 | 0,1129413 | 20 | 3 | 0,60 | ||
Калининградская область | 0,9657509 | -0,9129292 | -0,4467032 | 1,4874751 | 0,3445506 | 21 | 3 | 0,67 | ||
Мурманская область | 0,0409078 | 0,9157766 | -0,2613763 | 2,5853845 | 2,2060148 | 22 | 3 | 1,22 | ||
Новгородская область | -0,7687001 | 1,0009851 | -0,445244 | 1,305629 | -0,0614019 | 23 | 3 | 0,57 | ||
Псковская область | -0,7074784 | 0,6404876 | -0,7108306 | 0,5598494 | -0,4924879 | 24 | 3 | 0,57 | ||
Республика Адыгея | -1,989876 | -1,5011956 | -0,737827 | -3,104929 | -1,2258112 | 25 | 2 | 1,26 | ||
Кабардино-Балкарская Республика | -0,7031336 | -1,5536316 | -0,7254233 | -1,7946906 | -1,03397 | 26 | 2 | 0,56 | ||
Республика Калмыкия | -1,4852905 | -0,5737337 | -0,8822945 | -0,2269243 | -1,9686789 | 27 | 2 | 0,71 | ||
Карачаево-Черкесская Республика | -0,6048826 | -1,1833023 | -0,8326794 | -0,4996936 | -1,0062914 | 28 | 2 | 0,17 | ||
Республика Северная Осетия - Алания | 0,5064892 | 0,5225066 | -0,7268825 | -1,4220636 | -0,6366074 | 29 | 1 | 0,75 | ||
Астраханская область | 0,3634081 | -0,1313049 | -0,1935204 | 1,0086836 | -0,228746 | 30 | 3 | 0,26 | ||
Волгоградская область | -0,522727
| -0,1706319 | 2,167574 | -0,0072373 | -0,3095547 | 31 | 1 | 0,87 | ||
Ростовская область | 0,0316258 | -0,642556 | 0,8753929 | -1,040502 | 0,1024426 | 32 | 1 | 0,57 | ||
Республика Башкортостан | -0,2358736 | 0,1259592 | 1,5612484 | -0,0797656 | 0,7680011 | 33 | 1 | 0,74 | ||
Республика Марий Эл | -0,9572038 | -0,563902 | -0,6816452 | 0,0805324 | -1,2713059 | 34 | 2 | 0,47 | ||
Республика Мордовия | -0,406307 | 1,4253891 | -0,5794965 | -0,0550639 | -1,0991897 | 35 | 1 | 0,79 | ||
Удмуртская Республика | -0,5852324 | -0,2918902 | 0,2807415 | -0,7209573 | -0,7183706 | 36 | 1 | 0,37 | ||
Чувашская Республика | -1,1169727 | -0,6097835 | -0,341636 | 0,0085297 | -1,0323793 | 37 | 2 | 0,44 | ||
Пермский край | 0,024615 | -0,0198784 | 0,327438 | 0,1945804 | 1,361659 | 38 | 3 | 0,69 | ||
Кировская область | -0,5039655 | -0,0018535 | -0,4554588 | -0,7656304 | -0,5494358 | 39 | 1 | 0,44 | ||
Оренбургская область | -0,9777427 | 0,345535 | -0,0614567 | -0,4345233 | -0,5265294 | 40 | 1 | 0,38 | ||
Пензенская область | -0,2787288 | 0,0489439 | -0,2737801 | -0,1607029 | -0,5300289 | 41 | 1 | 0,39 | ||
Самарская область | 0,8135852 | 0,4684319 | 0,9002004 | 1,4301883 | 1,2617616 | 42 | 4 | 0,67 | ||
Саратовская область | -0,101877 | 0,3357033 | 0,4325053 | 0,0994528 | -0,8834876 | 43 | 1 | 0,42 | ||
Ульяновская область | 0,4976022 | 0,2177223 | -0,4554588 | 0,3322789 | -0,6626953 | 44 | 3 | 0,51 | ||
Курганская область | -0,6422081 | 0,0210872 | -0,5218555 | -0,6179461 | -0,2157021 | 45 | 1 | 0,45 | ||
Челябинская область | 0,004866 | -0,4278961 | 0,9600304 | 1,1768651 | 0,7387318 | 46 | 3 | 0,67 | ||
Республика Алтай | -1,7628619 | -0,8015027 | -0,7772272 | -1,5345349 | -0,5300289 | 47 | 2 | 0,63 | ||
Республика Бурятия | -0,4625915 | -1,1833023 | -0,6728896 | -0,2847367 | -0,1717981 | 48 | 2 | 0,35 | ||
Республика Хакасия | 0,7034849 | -1,0489351 | -0,2154094 | 0,5803466 | -0,3420055 | 49 | 3 | 0,67 | ||
Алтайский край | -0,3866568 | 0,8535089 | 1,181839 | -0,9096358 | -0,6649223 | 50 | 1 | 0,49 | ||
Забайкальский край | 0,2759203 | -2,0206398 | -0,7422048 | -1,4677879 | -0,2758314 | 51 | 2 | 0,75 | ||
Красноярский край | 0,9006781 | -0,314831 | 2,4747497 | 0,4610428 | 1,1981327 | 52 | 4 | 0,95 | ||
Иркутская область | 0,313542 | -1,5716565 | -0,1621461 | 1,0906721 | 0,3318248 | 53 | 3 | 0,78 | ||
Кемеровская область | -0,0240662 | -1,4258189 | 2,2813968 | -0,3320377 | 0,827176 | 54 | 1 | 1,26 | ||
Новосибирская область | 1,6268467 | 0,8567861 | 4,3973343 | 0,2087707 | 0,3178265 | 55 | 4 | 1,65 | ||
Томская область | 0,8873476 | 2,339742 | 0,695903 | -0,3467536 | 0,5227116 | 56 | 4 | 0,92 | ||
Республика Саха (Якутия) | 2,0954892 | 0,9567422 | -0,4802664 | -1,7920627 | 2,1958342 | 57 | 4 | 1,17 | ||
Приморский край | 1,9378926 | 0,1915043 | 0,9541933 | 1,2236405 | 0,3082821 | 58 | 4 | 0,74 | ||
Хабаровский край | 2,0348599 | -0,0362647 | 0,0771737 | 0,0915693 | 1,2299471 | 59 | 4 | 0,57 | ||
Амурская область | 0,5284105 | -1,7240487 | -0,5641742 | -0,0119674 | 0,03086 | 60 | 2 | 0,79 | ||
Сахалинская область | 3,8591686 | 1,0468666 | -0,7108306 | 0,1667253 | 4,0445726 | 61 | 4 | 1,67 |
Табл. 2.2.1 Сводная таблица метода k-средних.
Укажем какие регионы к какому кластеру относятся.
1й кластер: Белгородская область, Воронежская область, Липецкая область, Тамбовская область, Тульская область, Республика Северная Осетия – Алания, Волгоградская область, Ростовская область, Республика Башкортостан, Республика Мордовия, Удмуртская Республика, Кировская область, Оренбургская область, Пензенская область, Саратовская область, Курганская область, Алтайский край, Кемеровская область.
2й кластер: Брянская область, Владимирская область, Ивановская область, Курская область, Орловская область, Республика Адыгея, Кабардино-Балкарская Республика, Республика Калмыкия, Карачаево-Черкесская Республика, Республика Марий Эл, Чувашская Республика, Республика Алтай, Республика Бурятия, Забайкальский край, Амурская область.
3й кластер: Калужская область, Костромская область, Рязанская область, Смоленская область, Тверская область, Ярославская область, Республика Карелия, Архангельская область, Вологодская область, Калининградская область, Мурманская область, Новгородская область, Псковская область, Астраханская область, Пермский край, Ульяновская область, Челябинская область, Республика Хакасия, Иркутская область.
4й кластер: Республика Коми, Самарская область, Красноярский край, Новосибирская область, Томская область, Республика Саха (Якутия), Приморский край, Хабаровский край, Сахалинская область.
Опираясь на рисунок 2.2.2 и данные, приведенные в сводной таблице k-метода (табл. 2.2.2.) проанализируем каждый из полученных кластеров.
Самыми высокими показателями среднедушевого дохода населения, число квартирных телефонных аппаратов сети общего пользования на 1000 человек, средства связи для оказания услуг передачи данных и телематически служб на 1000 человек, и что вполне логично, доходов от услуг связи населению на одного жителя обладает кластер 4.
В регионах группы 3 наблюдается самое большое число абонентов сотовых терминалов. Также в регионах данной группы наблюдается второй по величине среднедушевые доходы населению. Оставшиеся два показателя находится на среднем уровне.
Что же касается регионов, принадлежащих первой группе, то степень оснащенности населения данных областей и Республик услугами связи, можно охарактеризовать как средний уровень.
Самым же низким уровнем оказываемых услуг связи отличается четвертый кластер. Данному объединению принадлежит и самый низкий среднедушевой доход населения. То есть, люди проживающие на данных территориях, часто просто не могут позволить такую вроде бы простую вещь как мобильный телефон у каждого члена семьи. Совокупность влияния этих факторов также влечет за собой самый низкий из 4 групп доход от услуг связи населению.