Для выявления взаимосвязей между двумя переменными применяется двумерный корреляционный анализ. Корреляционный анализ разработан английским статистиком К. Пирсоном.
Одним из основных показателей взаимозависимости двух случайных величин является парный коэффициент корреляции, служащий мерой линейной статистической зависимости между двумя величинами. Этот показатель соответствует своему прямому назначению, когда статистическая связь между соответствующими признаками в генеральной совокупности линейна. То же самое относится к частным и множественным коэффициентам корреляции. Одним из требований, определяющих корреляционный метод, является требование линейности статистической связи, т. е. линейности всевозможных уравнений регрессии.
Парный коэффициент корреляции, характеризующий тесноту связи между случайными величинами X и Y в генеральной совокупности,определяется по формуле:
, (2.1)
где и математические ожидания величин и , а их среднеквадратические отклонения.
|
|
Парный коэффициент корреляции изменяется в пределах от -1 до +1, то есть . При этом между величинами и связь функциональная (прямая - при =+1 и обратная - при = -1). Если же = 0, то между величинами х и у линейная связь отсутствует и они называются некоррелированными.
Содержательная интерпретация коэффициента корреляции приведена в табл. 3.1.
Таблица 3.1
Содержательная интерпретация коэффициента корреляции
Значение | Связь | Интерпретация связи |
Отсутствует | Отсутствует линейная связь между величинами и | |
Прямая | С увеличением величина в среднем увеличивается и на оборот | |
Обратная | С увеличением величина в среднем уменьшается и на оборот | |
Функциональная | Каждому значению соответствует одно строго определенное значение величины и на оборот |
Коэффициент корреляции, определяемый (2.1), относится к генеральной совокупности и как всякий параметр генеральной совокупности нам не известен. Его можно лишь оценить по результатам выборочных наблюдений.
Выборочный парный коэффициент корреляции, найденный по выборке объемом п, где результат го наблюдения определяется по формуле:
(2. 2)
где ; ; а выборочные среднеквадратические ошибки:
; .
В некоторых случаях выборочные среднеквадратические отклонения находят по формулам:
; , (3.3)
где
; . (2.4)
Формула (2.2) симметрична, т.е. r ху= rух =r. Если в ее числителе раскрыть скобки, то после несложных преобразований получим формулу, которую широко используют при вычислении коэффициента корреляции.
, (2.5)
где - средняя арифметическая произведения двух величин, т. е.
. (2.6)
Выборочный коэффициент корреляции r, как всякая выборочная характеристика, является случайной величиной, и по отдельным его значениям нельзя делать окончательные выводы о степени тесноты линейной связи между двумя величинами. Здесь речь может идти о некоторых практических, качественных рекомендациях (табл. 2.2) при достаточно больших n (n > 40).
|
|
Таблица 2. 2
Качественные характеристики связи
Значение | Связь |
От 0 до От до От до От до | Практически отсутствует Слабая Умеренная Сильная |
Оценка существенности линейного коэффициент корреляции при большом объеме выборки (свыше 500) проводится с использованием отношения коэффициента корреляции () к его средней квадратической ошибке :
, (2.7)
где - среднеквадратическая ошибка коэффициента корреляции, рассчитываемая по формуле:
. (2.8)
Примечание. называют расчетным коэффициентом распределения Стьюдента.
Если это отношение окажется больше значения t – критерия Стьюдента, определяемого по специальным таблицам теории вероятностей, то коэффициент корреляции значимо отличается от нуля.
При недостаточном большом объеме выборки величину средней квадратической ошибки коэффициента корреляции определяют по формуле:
. (2.9)
В этом случае:
(2.10)
Полученные значения сравнивается с табличным значением t – критерия Стьюдента.
Пример 2.1. На основании выборочных данных (табл.2.3) о деятельности = 6 коммерческих фирм оценить тесноту связи между прибылью (млн. руб.) и затратами на 1 руб. произведенной продукции .
Таблица 2.3. Исходные и расчетные данные для определения r
Номер наблюдения i | |||||
0,22 | 21,12 | 0,049 | |||
1,07 | 83,46 | 1,145 | |||
1,00 | 77,00 | 1,000 | |||
0,61 | 54,29 | 0,372 | |||
0,78 | 63,18 | 0,608 | |||
0,79 | 64,78 | 0,624 | |||
Сумма | 4,47 | 363,83 | 3,798 | ||
Средняя | 83,833 | 0,745 | 60,638 | 7072,5 | 0,633 |
Используем формулу (3.5): Прежде всего определим Sx и Sy: ;
Тогда
Прежде чем анализировать вычисленный коэффициент корреляции необходимо проверить его на значимость. Для этого предварительно рассчитаем среднюю квадратическую ошибку коэффициента корреляции по формуле (2.9):
.
Необходимо получить по формуле (2.10) расчетный коэффициент Стьюдента:
.
По таблице приложения №№№ найдем табличное значение критерия Стьюдента при P=0,95 и k=6-2;
Так как , то можно утверждать существенность коэффициента корреляции.
Следовательно, между прибылью ()и затратами на 1 руб. произведенной продукции () существует достаточно тесная обратная зависимость, т.е. фирмы, имеющие большую прибыль, имеют, как правило, меньшие затраты на 1 руб. произведенной продукции.