И корреляционный анализ

 Выборочные средние ,  (несмещенные оценки матожидания) и смещенные оценки дисперсии для каждой переменной (var(x), var (y)) рассчитывают по формулам

= = (СРЗНАЧ на Excel),

var(x) =  (ДИСРП на Excel),

var (y) =  (ДИСРП на Excel).

Примечание. Во всех формулах, где опущены индексы сум-мирования, оно производится от1 до n, т. е. символ означает

 Выборочную ковариацию cov(x, y) рассчитывают по формуле

cov (x, y) =  (КОВАР на Excel).

 Выборочный коэффициент корреляции rxy рассчитывают по формуле rxy = , - 1 £ rxy £ +1 (КОРРЕЛ на Excel).

По значению rxy формулируется вывод о количественной мере линейной связи между переменными x и y. Если rxy = ±1, то можно сде-лать заключение о том, что между x и y существует точная функциона-льная линейная зависимость, наклон которой определяется знаком rxy. В этом случае линейная регрессия должна точно проходить через все точки выборки (xi, yi), i = 1,…, n, и остаточная сумма квадратов, вычисленная по уравнению регрессии MSE, должна равняться нулю.

 

1.3. Методика расчета коэффициентов b1, b0

уравнения линейной регрессии вида  = b1x + b0

 

Ставится задача: для выборки (xi, yi), i = 1,..., n, полученной в  подразд. 1.1, построить уравнение линейной регрессии вида             = b 1 x + b 0, вычислив коэффициенты b 1 и b 0 двумя разными способами.

1. Вычислить коэффициенты регрессии общим методом путем решения системы линейных алгебраических уравнений (СЛАУ).

Параметры регрессии определяются по методу наименьших квад-ратов (МНК),согласно которому b 1 и b 0 определяются из такого условия:

S (b 1, b 0) = ,

тогда

S (b 1, b 0) = 0, S (b 1, b 0) = 0.

Отсюда для определения b 1 и b 0 возникает СЛАУ, состоящая из двух уравнений: A =  c матрицей A и вектором свободных членов :

A =   = .

Решать эту СЛАУ удобно методом Крамера, вычисляя b 1 и b 0 по следующим формулам:

D = det A = n  D 0 = det =

D 1 = det =n  b 0 = , b 1 = .

2. Проверочные формулы для вычисления b 1 и b 0 таковы:             b 1 =  b 0 = - b 1  (только для линейной регрессии).

Еще одна проверка правильности вычисления b 1 и b 0 выполняется на основании тождества  = b 1 + b 0.

После вычисления b 1 и b 0 на рабочем листе необходимо построить точечную диаграмму, на которую нужно нанести точки выборки (xi, yi), i = 1,...,n, прямую регрессии и точку (, ). Прямая регрессии может быть построена как второй ряд точечной диаграммы, для которого нужно подготовить данные, вычислив абсциссы и ординаты по крайней мере двух точек, принадлежащих прямой регрессии, и разместив их в подходящем диапазоне. Абсциссами этих двух точек целесообразно взять минимальное и максимальное значения xi исходной выборки. Точки ряда данных, задающего регрессию, должны быть соединены. Это можно сделать, выделив на диаграмме ряд данных регрессии, после чего нужно активизировать его контекстное меню и в опции Формат рядов данных (вкладка Вид) задать параметры линии, соединяющей точки. Точка (, ) наносится на диаграмму как третий ряд данных, состоящий из одной точки.

Примечание. При построении диаграммы прямую линейной регрессии и ее уравнение можно увидеть и без всяких вычислений, построив линейный тренд по ряду данных исходной выборки (xi, yi),     i = 1,...,n. Для этого нужно на диаграмме выделить этот ряд данных и активизировать его контекстное меню, после чего в опции Добавить линию тренда выбрать его линейный тип, а в опции Параметры включить флажок Показать линию тренда.

3. Вычисление остаточной суммы квадратов MSE выполняется по формуле MSE .

Величина MSE является количественной мерой качества построенной линейной регрессии. Чем она меньше, тем ближе проходит регрессионная прямая к точкам исходной выборки (xi, yi),  i = 1,…, n. На основе значения остаточной суммы квадратов MSE вычисляется величина =  где  - квадрат выборочного стандартного отклонения наблюдаемого значения yi от предсказанного .

4. Оценка статистической значимости уравнения регрессии по кри-терию Фишера для уровня значимости a. Вычисляется вспомогате-льная величина MSR = , равная сумме квадратов отклонений значений, полученных с помощью уравнения регрессии от среднего значения .

Известно, что отношение (n - 2) обладает распределением Фишера с (, ) степенями свободы [2]. На этом факте и основана проверка статистической значимости уравнения линейной регрессии, то есть проверяется то обстоятельство, что полученное уравнение линейной регрессии  аппроксимирует точки исходной выборки лучше, чем просто среднее значение  с доверительной вероятностью, равной 1 - a.

Для этой проверки вычисляется величина (n - 2), а также так называемое критическое значение статистики Фишера . Вычи-сление  выполняется по специальной таблице, которая называется «Процентные точки распределения Фишера» [2]. Исходными данными для вычисления  служат, во-первых, значение a, определяющее тот лист таблицы, которым нужно воспользоваться, и, во-вторых, раз-мерность выборки n, задающая значения степеней свободы  и , которые определяют соответственно столбец и строку таблицы, на пересечении которых приведено нужное значение . В нашем слу-чае = 1, а = n - 2. (При использовании таблицы следует обратить внимание на то, где расположены  и , т. к. в различных книгах эти таблицы могут отличаться транспонированным видом.)

Если в условии задано значение a, которого нет в таблице, то нужно выбрать такие два листа таблицы, чтобы значение a попадало между ними, и выполнить линейную интерполяцию по паре значений . Например: пусть по условию a = 8%. В таблице же есть листы для a 5% = 5% и a 10% = 10%. Для известного  определяем и по двум разным листам. Искомое значение будет равно

= .

На Excel вычисление  осуществляется функцией FРАСПОБР. Ее первым аргументом нужно задать значение a (этот аргумент называется «Вероятность»), вторым аргументом задается единица, а третьим - n - 2.

Полученное значение  сравнивается с (n - 2). Если выполняется условие F > , то можно сформулировать вывод о том, что полученное уравнение линейной регрессии статистически значимо с доверительной вероятностью, равной (1 - a) и линейная модель адекватно отражает результаты эксперимента.

5. Оценка статистической значимости коэффициентов b 1 и b 0              (bj, j = 0, 1) уравнения регрессии по критерию Стьюдента для задан-ного уровня значимости a. Эта оценка производится путем проверки на статистическую значимость гипотезы о равенстве нулю каждого из bj. Вычисляем оценки дисперсии коэффициентов регрессии b 1 и b 0:

 = ;  = ; .

Известно, что если выбраны гипотетические значения оцениваемых параметров b 1 для b 1 и b 0 для b 0, то статистика             t =  имеет распределение Стьюдента с (n - 2) степенями сво-боды. В нашем случае проверяются гипотезы b 1= b 0=0 (нуль-гипотезы).

Итак, вычисляем значения . Далее для заданного a вычисляем критическое значение t- статистики - tкр. Для этого используется таблица под названием «Процентные точки распределения Стьюдента» [2]. Исходными данными для вычисления tкр служат значение  и размерность выборки n, задающая значения степени свободы n = n - 2, которые определяют соответственно столбец и строку таблицы. На их пересечении приведено нужное значение tкр. При использовании этой таблицы полезно соотношение                    t (n,1- a) = - t (n, a). Если задано такое значение a, при котором значения   нет в таблице, то нужно выбрать такие два соседних столбца таблицы, чтобы  попадало между ними, и выполнить линейную интерполяцию по паре значений tкр аналогично вычислению  в п. 3. Далее проверяется неравенство - tкр £ I I £ tкр. Если оно выполняется, то делается вывод об истинности нуль-гипотезы для j -го коэффициента линейной регрессии, т.е. этот коэффициент не является статистически значимым при выбранном уровне доверительной вероятности 1 - a.

На Excel вычисление tкр осуществляется функцией СТЬЮДРАСПОБР. Ее первым аргументом задается значение a (этот аргумент называется «Вероятность» и делить его на два не нужно!), вторым аргументом задается n - 2.

6. Для заданных точки прогнозирования xn +1 и уровня значимости a по уравнению линейной регрессии вычислить прогнозное значение n +1 и построить интервал доверия. Прогнозное значение n +1 - это значение, полученное подстановкой xn +1 в уравнение регрессии, т. е.               n +1 = b 1 xn +1 + b 0, и оно является оценкой неизвестного истинного зна-чения yn +1. Прогнозные значения вычисляются для любого значения аргумента, и всегда встает вопрос о том, насколько им можно дове-рять. Вычисление интервала доверия, т. е. такого интервала n +1 ± d, в который неизвестное истинное значение yn +1 попадает с довери-тельной вероятностью, равной 1- a, осуществляется по формуле

d = ,

 где = tкр - это значение t- статистики Стьюдента при (n - 2) степенях свободы и уровне значимости a.

Так как n +1 является случайной величиной, то она обладает матожиданием Е ( n +1). Возможно построение интервала доверия и для Е ( n +1), границы которого вычисляются по формуле

b 1 xn +1 + b 0 ± .

Построив интервалы доверия, можно формулировать следующие утверждения о достоверности результатов прогнозов с использова-нием линейной регрессии: «неизвестное истинное значение функции отклика yn +1 попадает в интервал n +1 ± d с вероятностью 1 - a».

 

Задание 2. НЕЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

ДЛЯ ФУНКЦИИ ОДНОЙ ПЕРЕМЕННОЙ

 1. Для исходной выборки, полученной в задании 1, построить уравнение квадратичной регрессии y = b 2 x 2 + b 1 x + b 0, вычислить остаточную сумму квадратов MSE' и сравнить ее с остаточной суммой квадратов MSE из п. 3, вычисленной для прямой.

 2. Построить график и нанести на него точки выборки (x i, y i),                 i = 1,...,n, прямую регрессии y = b 1 x + b 0 и параболу регрессии             y = b 2 x 2 + b 1 x + b 0.

 3. Сделать вывод о том, какая из двух регрессий (прямая или парабола) обеспечивает меньшее значение остаточной суммы квадратов и подсчитать относительную разницу между MSE и MSE'.

2.1. Методика расчета коэффициентов b2, b1, b0

уравнения параболической регрессии вида = b2x2+ b1x + b0

                                                      

Ставится задача: для выборки (xi, yi), i = 1,..., n, сформированной в задании 1, построить уравнение регрессии вида y = b 2 x 2 + b 1 x + b 0, вычислив его коэффициенты b 2, b 1 и b 0 общим методом МНК.

Параметры b 2, b 1 и b 0 параболической регрессии определяются по МНК из условия:

S (b 2, b 1, b 0) = ,

откуда

S (b 2, b 1, b 0) = 0, S (b 2, b 1, b 0) = 0, S (b 2, b 1, b 0) = 0.

Тогда для определения b 2, b 1 и b 0 возникает СЛАУ, состоящая из трех уравнений, A  =   c матрицей A и вектором свободных членов :

A =   = .

Решать эту систему можно методом исключения Гаусса или методом Крамера, вычисляя b 2, b 1 и b 0 по формулам

D = det A;D 0 = det  D 1 = det

D 2 = det  b 0 = , b 1 = , b 2 = .

Формула для вычисления определителя третьей степени произвольной матрицы A (МОПРЕД на EXCEL) имеет вид

det =

= a11 a22 a33 + a12 a23 a31 + a13 a21 a32 - a13 a22 a31 - a11 a23 a32 - a12 a21 a33.

 

Примечание 1. С ростом степени полинома, задающего регрессию, методика расчетов по МНК остается прежней, только увеличивается размерность СЛАУ, равная количеству параметров полинома. Для полиномиальной регрессии со степенью выше второй возникающую СЛАУ методом Крамера решать уже крайне трудно и обычно используется метод Гаусса.

Примечание 2. На диаграмме в Excel кривую, задающую парабо-лическую регрессию, можно увидеть, построив полиномиальный тренд второй степени по ряду данных исходной выборки (xi, yi), i = 1,..., n,что и будет служить проверкой правильности вычислений.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: