Гауссовское (нормальное) распределение ошибок в линейной модели наблюдений 1 страница

Итак, предположив, что в модели наблюдений

ошибки  — независимые случайные величины, имеющие одинаковое распределение (i. i. d), мы должны сделать и предположение о том, каким именно является этораспределение.

Классические методы статистического анализа линейных моделей наблюдений предполагают, что таковым является распределение Гаусса (Gaussian distribution), функция плотности которого имеет вид

График указанной функции плотности имеет колоколообразную форму

Параметр  характеризует степень рассредоточения распределения вдоль оси абсцисс. На диаграмме представлены графики функций плотности гауссовского распределения при трех различных значениях параметра . Из трех представленных функций наибольшее значение в нуле имеет функция плотности с , наименьшее — функция плотности с , а промежуточное между ними — функция плотности с . Эти значения равны, соответственно,

Гауссовское распределение симметрично относительно нуля, и это предполагает, что положительные ошибки столь же вероятны, как и отрицательные; при этом, малые ошибки встречаются чаще, чем большие. Если случайная ошибка имеет гауссовское распределение с параметром , то с вероятностью   ее значение будет заключено в пределах от  до . Соответственно, для трех рассмотренных случаев получаем: с вероятностью  значение случайной ошибки заключено в интервале

— при , - при , - при .

Хотя гауссовское распределение довольно часто вполне приемлемо для описания случайных ошибок в моделях наблюдений, оно вовсе не является универсальным. Такое распределение характерно для ситуаций, когда результирующая ошибка является следствием сложения большого количества независимых случайных ошибок, каждая из которых достаточно мала.

Мы будем далее в этом параграфе предполагать, что процесс порождения данных (ППД, или DGP- data generating process) устроен следующим образом. Значения   известны точно и рассматриваются как заданные, а значения  получаются наложением на значения   случайных ошибок .

В этом контексте,  рассматриваются как некоторые постоянные (хотя и не известные наблюдателю). Напротив, значения  носят случайный характер, определяемый случайным характером значений . Собственно,  отличается от случайной величины  лишь сдвигом на постоянную , и потому также является случайной величиной. Мы будем обозначать ее в этом качестве как случайную величину . Функция распределения этой случайной величины имеет вид

где  — функция распределения случайной величины  (одинаковая для всех ). Соответственно, функция плотности распределения случайной величины  имеет вид

где  — функция плотности распределения случайной величины .

Таким образом, случайные величины  хотя и являются взаимно независимыми (в силу предполагаемой взаимной независимости случайных величин ), но имеют разные распределения, отличающиеся сдвигом. На следующем рисунке представлены графики функции плотности  распределения  (гауссовское распределение с параметром ) и функции плотности  распределения случайной величины  при значении .

Заметим, что если случайная ошибка  имеет гауссовское распределение с плотностью

то отличающаяся от нее сдвигом случайная величина  имеет функцию плотности

Эта функция плотности принадлежит двухпараметрическому семейству функций плотности вида

Функции плотности такого вида называются нормальными плотностями, а определяемые ими распределения вероятностей называются нормальными распределениями вероятностей. Если некоторая случайная величина  имеет плотность распределения, заданную последним соотношением, то говорят, что случайная величина Y имеет нормальное распределение с параметрами m и s 2. Распределение такой случайной величины симметрично относительно своего среднего значения m. Максимальное значение функции плотности этой случайной величины достигается при .

Таким образом, строго говоря, гауссовское распределение — это нормальное распределение с нулевым средним значением. Однако, в современной научной литературе термины нормальное распределение и гауссовское распределение используются как синонимы: нормальное распределение с параметрами m и s 2 называют также гауссовским распределением с параметрами m и s 2.

Важнейшая роль предположения о нормальном (гауссовском) распределении ошибок в линейной модели наблюдений

определяется тем обстоятельством, что при добавлении такого предположения к стандартному предположению о том, что ошибки  — независимые случайные величины, имеющие одинаковое распределение, можно легко найти точный вид распределения оценок наименьших квадратов для неизвестных значений параметров модели.

Вспомним, в этой связи, полученное ранее выражение

Обозначая

мы можем записать выражение для  в виде

где

Таким образом,

где  — фиксированные величины, а  — наблюдаемые значения случайных величин . Поэтому вычисленное по последней формуле значение  является наблюдаемым значением случайной величины

которая является линейной комбинацией случайных величин  и имеет некоторое распределение вероятностей, зависящее от распределения последних.

В общем случае, аналитическое описание распределения  как случайной величины довольно затруднительно. Более просто эта задача решается в ситуации, когда  имеет гауссовское распределение. Если ошибки - независимые случайные величины, имеющие одинаковое нормальное распределение с нулевым средним, то тогда оценка наименьших квадратов  параметра   также имеет нормальное распределение. Чтобы указать параметры этого нормального распределения и иметь возможность проводить статистический анализ подобранной модели линейной связи между переменными факторами, нам придется уделить внимание некоторым важным числовым характеристикам случайных величин и их свойствам.

2.3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ
ВЕЛИЧИН И ИХ СВОЙСТВА

Случайные величины, с которыми мы имеем дело в данном курсе, полностью определяются заданием их функции плотности, указывающей на зоны более вероятных и менее вероятных значений случайной величины. Часто, однако, интересуются более сжатыми характеристиками распределений случайных величин, выраженными отдельными числами. К таким характеристикам, в первую очередь, относятся математическое ожидание и дисперсия случайной величины.

Пусть случайная величина  имеет функцию плотности . График функции  ограничивает вместе с осью абсцисс   полосу переменной ширины. Если рассматривать эту полосу как материальный объект определенной (постоянной) толщины, изготовленный из однородного материала и имеющий массу, равную единице, то абсцисса центра тяжести этого материального объекта называется математическим ожиданием (expectation) случайной величины X, обозначается E (X) и вычисляется по формуле

Если график функции плотности симметричен относительно оси ординат (так что  — четная функция), то

Довольно часто о  говорят как о среднем значении случайной величины X. Это связано с тем, что если  — независимые копии случайной величины  (т. е. случайные величины  независимы в совокупности и имеют то же распределение, что и ), то тогда при больших  для наблюдаемых значений  случайных величин  имеет место приближенное равенство

тем более точное, чем больше значение . Иными словами, с увеличением  значение  сколь угодно точно приближается значением среднеарифметического наблюдаемых величин .

Обратимся опять к упомянутому ранее гауссовскому (нормальному) распределению с функцией плотности

и пусть случайная величина  имеет такое распределение с , а случайная величина  имеет такое распределение с . Сравним графики соответствующих функций плотности (сплошной линией представлен график функции плотности случайной величины ):

Поскольку в обоих случаях графики симметричны относительно нуля, то

т. е. математические ожидания случайных величин  и   совпадают. Однако, распределение случайной величины   более рассредоточено, и это означает, что для любого

При этом говорят, что распределение случайной величины имеет более тяжелые (heavy), или более длинные (long) хвосты (tails). Соответственно,

В рассмотренном случае в качестве числовой характеристики степени рассредоточенности распределения можно было бы принять параметр : чем больше значение этого параметра, тем более рассредоточено распределение. В общем случае, сравнивать степени рассредоточенности распределений случайных величин можно, привлекая для этой цели понятие дисперсии.

Дисперсией (variance) случайной величины X называют число

равное математическому ожиданию квадрата отклонения случайной величины от ее математического ожидания . [1] Зная функцию плотности  случайной величины , дисперсию этой случайной величины можно вычислить по формуле

Таким образом, математическое ожидание можно интерпретировать как взвешенное среднее возможных значений   случайной величины , с весами, пропорциональными , а дисперсию — как взвешенное среднее (с теми же весами) квадратов отклонений возможных значений   случайной величины от ее математического ожидания.

Если случайная величина  имеет нормальное распределение с функцией плотности

то для нее

Таким образом, случайная величина, имеющая нормальное распределение, полностью определяется (в отношении ее распределения) заданием значений ее математического ожидания и дисперсии.

В связи с частым использованием нормально распределенных случайных величин в дальнейшем изложении, мы будем обозначать нормальное распределение, имеющее математическое ожидание  и дисперсию , символом . В случае, когда , , говорят о стандартном нормальном распределении . Имеются весьма подробные таблицы значений функции распределения и функции плотности стандартного нормального распределения.

Для дальнейшего нам, в первую очередь, понадобятся следующие простые свойства математического ожидания и дисперсии.

Если - некоторая постоянная, отличная от нуля, а - некоторая случайная величина, то тогда сумма  и произведение  также являются случайными величинами; при этом,

Два свойства, касающиеся математического ожидания, непосредственно следуют из определения математического ожидания. При выводе первого из них учитываем, что по самому определению функции плотности распределения,

Из этих двух свойств математического ожидания легко получаем указанные два свойства дисперсии. Действительно,

Таким образом, изменение случайной величины на некоторую постоянную вызывает такое же изменение математического ожидания, но не отражается на дисперсии. Изменение случайной величины в  раз приводит к такому же изменению математического ожидания и изменяет значение дисперсии в  раз.

В применении к линейной модели наблюдений

с фиксированными  и взаимно независимыми гауссовскими ошибками , мы имеем:

~  ~

Соответственно,

Заметим, наконец, что если  — случайные величины и , то

и если случайные величины   попарно некоррелированы, т. е.

то тогда

В применении к последней линейной модели наблюдений это означает, что рассматриваемая как случайная величина оценка наименьших квадратов , которую мы представили ранее в виде

где

так что  — фиксированные величины, имеет нормальное распределение с математическим ожиданием

и дисперсией

2.4. НОРМАЛЬНЫЕ ЛИНЕЙНЫЕ МОДЕЛИ С
НЕСКОЛЬКИМИ ОБЪЯСНЯЮЩИМИ ПЕРЕМЕННЫМИ

Начиная с этого момента, мы будем предполагать, что

(1) Модель наблюдений  имеет вид

где  - значение объясняемой переменной в -м наблюдении;

    - известное значение -ой объясняющей переменной в -м наблюдении;

   - неизвестный коэффициент при -ой объясняющей переменной;

   - случайная составляющая (“ошибка“) в -м наблюдении.

(2)  - случайные величины, независимые в совокупности, имеющие одинаковое нормальное распределение N (0,s2) с нулевым математическим ожиданием и дисперсией

(3)    Если не оговорено противное, то в число объясняющих переменных включается переменная, тождественно равная единице, которая объявляется  первой   объясняющей переменной, так что




Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: