Пусть наблюдаемая случайная величина зависит от случайной величины или случайного вектора . Значения мы либо задаем, либо наблюдаем. Обозначим через функцию, отражающую зависимость среднего значения от значений :
(6) |
Функция называется линией регрессии на , а уравнение -- регрессионным уравнением. После экспериментов, в которых последовательно принимает значения , , , получим значения наблюдаемой величины , равные , , .
Обозначим через разницу
между наблюдаемой в -м эксперименте случайной величиной и ее математическим ожиданием.
Итак, , , где — ошибки наблюдения, равные в точности разнице между реальным и усредненным значением случайной величины при значении . Про совместное распределение , , обычно что-либо известно или предполагается: например, что вектор ошибок состоит из независимых и одинаково нормально распределенных случайных величин с нулевым средним.
Нулевое среднее тут необходимо:
Требуется по значениям и оценить как можно точнее функцию . Величины не являются случайными, так что вся случайность сосредоточена в неизвестных ошибках и в наблюдаемых .
|
|
Но пытаться в классе всех возможных функций восстанавливать по «наилучшим оценкам» для довольно глупо — наиболее точными приближениями к оказываются , и функция будет просто ломаной, построенной по точкам . Поэтому сначала заранее определяют вид функции . Часто предполагают, что есть полином (редко больше третьей или четвертой степени) с неизвестными коэффициентами. Будем пока предполагать, что функция полностью определяется неизвестными параметрами .