1. Построить линейное уравнение парной регрессии у от х.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Построить доверительный интервал для коэффициента регрессии с вероятностью 95%.
Решение. Для расчета параметров уравнения линейной регрессии строим расчетную таблицу 2.
Таблица 2
№ | y | x | xy | x2 | y2 | yx | |y-yx| | |(y-yx)/y| |
39,0 | 0,119 | |||||||
41,0 | 0,030 | |||||||
43,5 | 0,172 | |||||||
39,5 | 0,028 | |||||||
44,5 | 0,019 | |||||||
53,0 | 0,105 | |||||||
33,5 | 0,003 | |||||||
44,0 | 0,000 | |||||||
36,5 | 0,052 | |||||||
43,5 | 0,031 | |||||||
38,0 | 0,076 | |||||||
57,5 | 0,057 | |||||||
Итого (в среднем) | 42,8 | x | 0,690 |
a= `y – b *`x = 3115-36,8*42,8 = 1539,5
|
|
Отсюда уравнение регрессии имеет вид: ух=1539,5+36,8х.
С увеличением расхода кормов на корову на 1 ц. корм.ед. среднегодовой надой на 1 корову в среднем возрастает на 36,8 кг. Тесноту линейной связи оценим с помощью коэффициента корреляции. Для этого сначала найдем среднеквадратические отклонения х и у по формулам:
Коэффициент корреляции показывает, что связь между х и у характеризуется как сильная. Определим качество модели через среднюю ошибку аппроксимации:
Качество модели можно оценить как хорошее, так как `А не превышает 8-10%. Коэффициент детерминации r2 равен 0,52. Это означает, что 52% вариации уровня удоев молока от одной коровы объясняется вариацией фактора х – расход кормов на корову.
Оценим значимость уравнения в целом с помощью F-критерия:
Определим критическое значения критерия по таблице (см. приложение) при к1=1, к2=10 и уровне значимости a=0,05. Оно равно 4,96. Так как Fфакт > Fкр, то гипотезу Н0 о случайном характере связи отклоняем с вероятностью 95%. Уравнение регрессии статистически значимо.
Оценку статистической значимости параметров регрессии проведем с помощью t-статистики Стьюдента. Выдвигаем гипотезы H0 о статистически незначимом отличии показателей от нуля: а=b=r=0. Табличное tкр для числа степеней свободы df= n-2=12-2=10 и a= 0,05 составит 2,23.
Определим случайные ошибки mb, ma, mr:
Тогда tb=36,8/11,19=3,29, ta=1539,5/484=3,18, tr=0,721/0,219=3,29. Фактические значения t-статистики превосходят табличные значения:
tb =3,29 > tкр=2,23, ta =3,18 > tкр=2,23, tr =3,29 > tкр=2,23.
Поэтому гипотезы Н0 отклоняется, т.е. а,b и r не случайно отличаются от нуля, а статистически значимы с вероятностью 95%. Зная связь между F и t-критериями можно было найти t-критерий для b и r по-другому:
|
|
Результаты проверки надежности отдельных параметров согласуются с результатами проверки уравнения в целом. Рассчитаем доверительный интервал для коэффициента регрессии b. Для этого определим предельную ошибку D=tкр*mb=2,23*11,19=25,0. Соответственно доверительный интервал при 5% уровне значимости будет:
36,8-25,0£ b £36,8+25,0
11,8£ b £61,8
Анализ верхней и нижней границ доверительного интервала приводит к выводу о том, что с вероятностью р =1-a=0,95 коэффициент регрессии b, находясь в указанных границах, не принимает нулевого значения, т.е. не являются статистически незначимым и существенно отличен от нуля.
Кроме этого применяются характеристики множественной регрессии и корреляции. Основными уравнениями являются линейные уравнения множественной регрессии в стандартизованной и естественной формах. Уравнение в естественной форме y=a+b1x1+b2x2+…+bnxn оценивается МНК:
(7)
Нахождение параметров уравнение регрессии в стандартизированном масштабе ty=b1tx1+b2tx2+…+bptxp осуществляется через коэффициенты парной корреляции:
ryx1=b1+b2rx2x1+…+bprxpx1,
ryx2=b1rx1x2 +b2+…+bprxpx2, (8)
…
ryxp=b1rx1xp +b2rx2xp+…+bp.
Существует связь между b- и b-коэффициентами: (9)
При трех переменных для двухфакторного уравнения регрессии формула совокупного коэффициента корреляции Ryx1x2 приводима к следующему виду:
(10)
При линейной зависимости признаков формула индекса корреляции может быть получена через стандартизированные коэффициенты:
(11)
Оценка качества построенной модели проводится аналогично парной регрессии и корреляции. Во множественной регрессии появляется еще один F-критерий - частный, определяющий целесообразность включения отдельного фактора после всех остальных:
(12)
где R2x1…xp – индекс множественной детерминации для модели с полным набором факторов;
R2x1…xi-1,xi+1…xp – индекс множественной детерминации, но без включения в модель фактора хi.
Фактическое значение частного F-критерия сравнивается с критическим (табличным) при 5%- или 1%-ом уровне значимости и числе степеней свободы: k1=1 и k2=n-m-1.
Частные коэффициенты (или индексы) корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии. При двух факторах показатели частной корреляции примут вид:
и (13)
Пример 2. По 30 наблюдениям матрица парных коэффициентов корреляции оказалась следующей:
у | x1 | х2 | х3 | |
у x1 х2 х3 | 1,00 0,30 0,60 0,40 | 1,00 0,10 0,15 | 1,00 0,80 | 1,00 |