correlation – соотношение, взаимосвязь (латин.)
Термин «регрессия» в 1877 г. лекции «Типичные законы наследственности».
Regression – движение назад (латин.). Френсис Гальтон (1822-1911) вывел так называемый закон регрессии – среднее движение роста сыновей по сравнению с ростом отцов (1899 г.).
1. Уравнение парной регрессии
Уравнение регрессии – наиболее часто встречающийся в практике вид статистической модели.
(показательная)
(степенная)
На основе метода наименьших квадратов получаем стандартную форму нормальных уравнений.
Для линейной зависимости это
Здесь и далее предполагается, что суммирование производится с по .
Найдем уравнение регрессии на основе данных (оценки) о средней заработной плате в некоторых странах и цене 1 л. бензина.
Страна | Ср. заработная плата, тыс. руб. () | Цена 1 л. бензина, август 2012 г., руб. () | |||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | |
Россия | 29 | 29,2 | 846,8 | 841 | 16,8 | 852,64 | 153,76 |
Сауд. Аравия | 105 | 6 | 630 | 11025 | 35,3 | 36 | 858,44 |
США | 72 | 31,2 | 2246,4 | 5184 | 27,3 | 973,44 | 15,21 |
Китай | 16,8 | 41,2 | 692,16 | 282,24 | 13,8 | 1697,44 | 750,76 |
Канада | 120 | 42 | 5040 | 14400 | 39,0 | 1764 | 9 |
Иран | 15 | 0,36 | 5,4 | 225 | 13,4 | 0,1296 | 170,04 |
Кувейт | 82 | 8,4 | 688,8 | 6724 | 29,7 | 70,56 | 453,69 |
Норвегия | 210 | 78 | 16380 | 44100 | 60,9 | 6084 | 292,41 |
Итого | 649,8 | 236,36 | 26529,56 | 82781,24 | 236,2 | 11478,21 | 2703,36 |
Уравнение регрессии
Таким образом, рост зарплаты на 1 тыс. рублей приводит к увеличению цены 1 л. бензина в среднем на 24,4 коп.
|
|
2. Измерение тесноты связи
а) Линейный коэффициент корреляции Пирсона: и его модификация
Карл Пирсон (1857–1936) – применение математико-статистических методов в биологии и других отраслях науки.
Коэффициент не имеет размерности, следовательно, он сопоставим для разных взаимосвязанных признаков.
имеет двустороннее значение, то есть
Величина лежит в пределах от -1 до +1. не означает, что и статистически независимы, а лишь указывает на отсутствие линейной связи между ними, не отрицая возможность существования иной формы зависимости между переменными.
Для вычисления значения найдем дисперсии и .
В зависимости от величины коэффициента корреляции можно сделать следующие заключения:
практически нет связи
слабая связь
умеренная, средняя связь
сильная, тесная связь
очень сильная, практически функциональная связь
б) Индекс корреляции (корреляционное отношение):
= ,
где факторная дисперсия () вычисляется по формуле
(характеризует систематическую вариацию или объясненную)
(характеризует случайную вариацию, отклонение от линии регрессии)
=
в) Ранговые коэффициенты корреляции: Спирмена, Кендэла
|
|
, где – разность рангов (
Страна | Ранги | (-)Q | Знаки отклонений | С или Н | ||||
Норвегия | 1 | 1 | 0 | 7 | 0 | + | + | С |
Канада | 2 | 2 | 0 | 6 | 0 | + | + | С |
Саудовская Аравия | 3 | 7 | 16 | 1 | 4 | + | - | Н |
Кувейт | 4 | 6 | 4 | 1 | 3 | + | - | Н |
США | 5 | 4 | 1 | 2 | 1 | - | + | Н |
Россия | 6 | 5 | 1 | 1 | 1 | - | - | С |
Китай | 7 | 3 | 16 | 1 | 0 | - | + | Н |
Иран | 8 | 8 | 0 | - | - | - | - | С |
Итого | 38 | 19 | (-)9 | О |
, где – сумма баллов, если баллом +1 оценивается пара рангов, имеющих по двум признакам одинаковый порядок, а баллом -1 пара рангов с обратным порядком.
Величины ранговых коэффициентов корреляции Спирмэна и Кендэла свидетельствуют о прямой, но умеренной связи между рассматриваемыми признаками.