Математическая модель регрессии

Пусть наблюдаемая случайная величина зависит от случайной величины или случайного вектора . Значения мы либо задаем, либо наблюдаем. Обозначим через функцию, отражающую зависимость среднего значения от значений :

(6)

Функция называется линией регрессии на , а уравнение -- регрессионным уравнением. После экспериментов, в которых последовательно принимает значения , , , получим значения наблюдаемой величины , равные , , .

Обозначим через разницу

между наблюдаемой в -м эксперименте случайной величиной и ее математическим ожиданием.

Итак, , , где — ошибки наблюдения, равные в точности разнице между реальным и усредненным значением случайной величины при значении . Про совместное распределение , , обычно что-либо известно или предполагается: например, что вектор ошибок состоит из независимых и одинаково нормально распределенных случайных величин с нулевым средним.

Нулевое среднее тут необходимо:

Требуется по значениям и оценить как можно точнее функцию . Величины не являются случайными, так что вся случайность сосредоточена в неизвестных ошибках и в наблюдаемых .

Но пытаться в классе всех возможных функций восстанавливать по «наилучшим оценкам» для довольно глупо — наиболее точными приближениями к оказываются , и функция будет просто ломаной, построенной по точкам . Поэтому сначала заранее определяют вид функции . Часто предполагают, что есть полином (редко больше третьей или четвертой степени) с неизвестными коэффициентами. Будем пока предполагать, что функция полностью определяется неизвестными параметрами .