Тема 5. Корреляционный и регрессионный анализ

            correlation – соотношение, взаимосвязь (латин.)

           Термин «регрессия» в 1877 г. лекции «Типичные законы наследственности».

           Regression – движение назад (латин.). Френсис Гальтон (1822-1911) вывел так называемый закон регрессии – среднее движение роста сыновей по сравнению с ростом отцов (1899 г.).

1. Уравнение парной регрессии

           Уравнение регрессии – наиболее часто встречающийся в практике вид статистической модели.

 (показательная)      

 (степенная)             

На основе метода наименьших квадратов получаем стандартную форму нормальных уравнений.

Для линейной зависимости это

 

Здесь и далее предполагается, что суммирование производится с  по .

Найдем уравнение регрессии на основе данных (оценки) о средней заработной плате в некоторых странах и цене 1 л. бензина.

Страна Ср. заработная плата, тыс. руб. () Цена 1 л. бензина, август 2012 г., руб. ()
  1 2 3 4 5 6 7
Россия 29 29,2 846,8 841 16,8 852,64 153,76
Сауд. Аравия 105 6 630 11025 35,3 36 858,44
США 72 31,2 2246,4 5184 27,3 973,44 15,21
Китай 16,8 41,2 692,16 282,24 13,8 1697,44 750,76
Канада 120 42 5040 14400 39,0 1764 9
Иран 15 0,36 5,4 225 13,4 0,1296 170,04
Кувейт 82 8,4 688,8 6724 29,7 70,56 453,69
Норвегия 210 78 16380 44100 60,9 6084 292,41
Итого 649,8 236,36 26529,56 82781,24 236,2 11478,21 2703,36

Уравнение регрессии
Таким образом, рост зарплаты на 1 тыс. рублей приводит к увеличению цены 1 л. бензина в среднем на 24,4 коп.

2. Измерение тесноты связи

а) Линейный коэффициент корреляции Пирсона:  и его модификация

Карл Пирсон (1857–1936) – применение математико-статистических методов в биологии и других отраслях науки.

Коэффициент не имеет размерности, следовательно, он сопоставим для разных взаимосвязанных признаков.

 имеет двустороннее значение, то есть

Величина  лежит в пределах от -1 до +1.  не означает, что  и  статистически независимы, а лишь указывает на отсутствие линейной связи между ними, не отрицая возможность существования иной формы зависимости между переменными.

Для вычисления значения  найдем дисперсии  и .

 

В зависимости от величины коэффициента корреляции можно сделать следующие заключения:


  практически нет связи

 слабая связь

 умеренная, средняя связь

 сильная, тесная связь

 очень сильная, практически функциональная связь


б) Индекс корреляции (корреляционное отношение):

=  ,

где факторная дисперсия () вычисляется по формуле

 (характеризует систематическую вариацию или объясненную)

 (характеризует случайную вариацию, отклонение от линии регрессии)

=

в) Ранговые коэффициенты корреляции: Спирмена,  Кендэла

 , где  – разность рангов (

Страна

Ранги

(-)Q

Знаки отклонений

С или Н

Норвегия 1 1 0 7 0 + + С
Канада 2 2 0 6 0 + + С
Саудовская Аравия 3 7 16 1 4 + - Н
Кувейт 4 6 4 1 3 + - Н
США 5 4 1 2 1 - + Н
Россия 6 5 1 1 1 - - С
Китай 7 3 16 1 0 - + Н
Иран 8 8 0 - - - - С
Итого     38 19 (-)9     О

 , где  – сумма баллов, если баллом +1 оценивается пара рангов, имеющих по двум признакам одинаковый порядок, а баллом -1 пара рангов с обратным порядком.

           Величины ранговых коэффициентов корреляции Спирмэна и Кендэла свидетельствуют о прямой, но умеренной связи между рассматриваемыми признаками.




Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: