Проверка значимости коэффициентов многомерной линейной регрессии

Таблица 4.1

Источник рассеяния	Сумма квадратов отклонений	Число степеней свободы	Оценка дисперсии
Относительно линии регрессии		N-(k+1)
За счет регрессии		(k+1)-1
Общее отклонение		N-1

Так как оценка дисперсии D_i "характеризующая чистую ошибку (дисперсия воспроизводимости) в таблице отсутствует, то для получения оценки дисперсии ошибки наблюдений в одной из точек проводится несколько (n) повторных наблюдений и в качестве оценки дисперсии ошибки наблюдений используют

где 1-е наблюдение в выбранной точке (обычно наблюдения проводят в центре плана), - среднее значение.

Если в каждой точке хⁱ проводится по n_i наблюдений, то в качестве оценки дисперсии ошибки наблюдений можно использовать величину

, где

В качестве весовых коэффициентов используются значения w_i = n_i.

Знание оценки дисперсии ошибки позволяет провести анализ, качества уравнения регрессии.

Примем, как и ранее, гипотезу о нормальном законе распределения ошибки с и . Для проверки адекватности уравнения регрессии проверим гипотезу Н₀, состоящую в том, что (Н₀: D_ад = D_вос). т.е. уравнение регрессии хорошо описывает результаты наблюдений, против альтернативной гипотезы H₁: .

В качестве меры рассогласования будем использовать дисперсионное отношение вида . Эта величина подчинена F - распределению с числом степеней свободы (N - (k+1) - числителя и (п-1) - знаменателя. Если при заданном уровне значимости а вычисленное значение U_ад меньше U_Kp (U_Kp - из таблицы F-распределения), то модель адекватна. Иначе (U_ад>U_кр) модель неадекватна. Если модель адекватна, то в качестве оценки дисперсии ошибки можно использовать либо оценку . т.е.

где S₂ подчинена - распределению с числом степеней свободы

г = N-(k+l), либо величину , где г₂ = N-(k+l); =n - 1. Здесь подчинена - распределению с числом степеней свободы

В случае адекватности найденного уравнения регрессии можно проверить значимость отдельных его коэффициентов b_i i=0,1,...,k.

В общем случае при произвольном плане экспериментов коэффициенты линии регрессии являются зависимыми случайными величинами. Поэтому доверительная область (область, в которой действительные значения коэффициентов регрессии находятся с заданной вероятностью ) представляет собой эллипсоид в (k+1)-мерном пространстве с центром в точке . Положение доверительного интервала для каждого из коэффициентов b_i зависит от заданных значений остальных b_j, . Границы эллипсоида задаются неравенством

Значение F_Kp берется из F-распределения для заданного уровня значимости при числе степеней свободы числителя r_ч=(k+1) и г_зн знаменателя, которое принимается равным N - (k+1) или , в зависимости от того, какое соотношение используется для вычисления оценки (см. п.4.3).

Проверка значимости коэффициентов заключается в проверке гипотезы Н₀: В=В_зад= (0. 0..... 0)^т. Если при этом неравенство выполняется, то все коэффициенты незначимы. В противном случае все коэффициенты или часть из них значимы и проверять их значимость нужно по отдельности, задавая значения остальным коэффициентам.

Если при проведении экспериментов план эксперимента был ортогональным, то оценки коэффициентов регрессии независимы и проверку их значимости можно проводить независимо друг от друга.

При проверке значимости коэффициента bi проверяется гипотеза H₀₁: b_i=0. В качестве меры рассогласования используется статистика , которая подчинена t-распределению с числом степеней свободы г равным числу степеней свободы оценки дисперсии .

Если вычисленное значение U₁ не превышает U_Kp, взятого из t-распределения при заданном уровне значимости и числе степеней свободы г, то гипотеза Н₀ принимается (коэффициент b_i. незначим), в противном случае (U_i > U_Kp) коэффициент b_i значим.

Если часть коэффициентов незначима, то их можно принять равными нулю. В этом случае необходимо снова проверить адекватность скорректированной модели. Если она окажется неадекватной, то исключать соответствующие переменные из нее нельзя.

4.5. Построение доверительного интервала для уравнения регрессии

Если модель адекватна и все коэффициенты регрессии значимы, то можно построить доверительный интервал для значений функции отклика, вычисляемых по уравнению регрессии.

Пусть , где - значения входных переменных, при которых вычисляется значение выходной переменной по уравнению регрессии. Так как коэффициенты регрессии несмещенные, то и у также несмещенная случайная величина для которой .

Так как - линейная функция от коэффициентов В, которые, в свою очередь, линейные функции от нормально распределенных случайных величин , то и у - нормально распределенная случайная величина, дисперсия которой равна

Отсюда доверительный интервал для значения у, вычисленного по уравнению регрессии будет , где берется из t - распределения Стьюдента при числе степеней свободы оценки дисперсии ошибки , используемой при вычислении .