Непрерывные случайные величины

Непрерывными называются величины, которые могут принимать любое значение на некотором интервале. Между любыми двумя значениями непрерывной величины содержится бесконечное число ее значений. К непрерывным относятся такие характеристики факторов риска, как концентрация, накопленная доза, и такие показатели здоровья, как заболеваемость и смертность для популяций, а также любые физиологические параметры для индивидов.

Для непрерывной случайной величины ξ функция распределении F(х) непрерывна, и, кроме того, существует непрерывная почти всюду неотрицательная функция f(х), называемая функцией плотности вероятности (а также функцией плотности или просто плотностью распределения), такая, что для любых значений х1 < х2 вероятность того, чю значение ξ находится в промежутке между х1 и х2, равна площади плоской фигуры, ограниченной сверху графиком функции у = f(х),снизу — осью абсцисс (у = 0), а слева и справа — отрезками прямых, проходящих через точки х1 и х2 параллельно оси ординат (х = х1 и х = х2 соответственно). В математическом смысле функция плотности является производной от функции распределения. Из определения вероятности ясно, что площадь, ограничиваемая графиком функции плотности и осью абсцисс, равна 1 для любого распределения.

Рис. 4.5 и 4.6 иллюстрируют возможность использования функции распределения и плотности распределения при оценке риска: если ось абсцисс соответствует уровням фактора риска, то функцию F(x) можно интерпретировать как вероятность неблагоприятного эффект фактора риска для уровня х. Для графика плотности вероятности риск, соответствующий уровню фактора х 0, соответствует площади заштрихованной фигуры.

Рис. 4.5. Функция распределения Рис. 4.6. Плотность распределения непрерывной случайной величины непрерывной случайной величины

Нормальное (гауссово) распределение. Нормальное распределение играет особо важную роль как в теоретической, так и в прикладной статистике. Практическая значимость этого распределения при оценке рисков обусловлена тем, что очень многие показатели здоровья на популяционном уровне (в том числе антропологические и многие физиологические характеристики, а также показатели заболеваемости) подчиняются нормальному или приблизительно нормальному закону распределения. Кроме того, в теории вероятностей доказывается так называемая центральная предельная теорема, согласно которой нормированное распределение суммы независимых случайных величин, ни одна из которых не доминирует над остальными, сходится к нормальному распределению при увеличении числа слагаемых. Эта теорема дает, в частности, основание для того, чтобы рассматривать распределение случайных ошибок наблюдения (имеющих место при измерении как воздействий, так и характеристик здоровья) как нормальное.

Для нормальных случайных величин разработан широкий спектр статистических методов, поэтому на практике предположение о нормальности распределения исследуемой случайной величины принимается всегда, когда нет явных оснований отвергнуть такое предположение.

Для нормального распределения функция плотности имеет вид:

.

В описание функции плотности входят 2 числа — параметры а и σ (σ всегда положительно, а может иметь любой знак). В зависимости от величины параметров изменяется вид плотности распределения (рис 4.7). При х = а функция f (х) принимает свое максимальное значение, кроме того, кривая у = f (х) симметрична относительно прямой, проходящей через точку а параллельно оси ординат. Чем больше величина σ, тем выше разброс случайной величины относительно ее среднего. В точках х = а ± σ функция плотности имеет точку перегиба, т. е. меняет свой характер с выпуклого на вогнутый. Кривая называется выпуклой на некотором интервале, если для любых двух точек х1, х2 из этого интервала отрезок прямой, соединяющий соответствующие им точки на графике f1), f2), (секущая) лежит ниже графика f (х),и вогнутой, если график функции для любых двух точек лежит под секущей. На практике часто используется следующее свойство нормального распределения: независимо от значений параметров а и σ площадь под графиком плотности распределения составляет:

0,68 для интервала а ± σ;

0,95 для интервала а ± 1,96 σ;

0,99 для интервала а ± 2,58 σ;

0,9974 для интервала а ± 3σ.

Функция плотности нормального распределения определена для любых значений х, как положительных, так и отрицательных, причем сколь, угодно больших по абсолютной величине. В действительности же почти всегда приходится иметь дело со случайными величинами, множество значений которых ограничено и снизу, и сверху. Основанием для применения нормального распределения к реальным случайным величинам является тот факт, что вероятность попадания значений нормальной случайной величины за пределы довольно узкого интервала а ± 3 σ составляет менее 0,3 %.

Формула ξ ~ N (а, σ2) используется как обозначение того, что случайная величина ξ имеет нормальное распределение с параметрами а и σ.

Если ξ ~ N (а, σ2), то для любых коэффициентов А, В случай мм величина, полученная умножением ξ на константу В и добавлением константы А, также является нормальной с параметрами:

А + Вξ ~ N(А + Ва, В2σ2).

Поэтому (ξ - а) / σ ~ N (0,1). Такое распределение называется стандартным нормальным. Плотность стандартного нормального распределения выражается формулой:

= .

Некоторые практически важные распределения, не являясь нормальными, могут быть сведены к нормальному путем определенных преобразований.

Логнормальное распределение. Непрерывная случайная величина ξ называется распределенной по логнормальному закону с параметрами а и σ2, если случайная величина η = ln ξ распределена нормально с параметрами а и σ2 (η ~ N (а, σ2)).

Логнормальные случайные величины могут принимать только положительные значения. На практике логнормальное распределение ти­пично для таких показателей, как концентрация различных загрязнителей в воздухе и в воде. Поэтому логнормальным распределением пользуются при оценке рисков, обусловленных загрязнением воздушной и водной среды, а в системах социально-гигиенического мониторинга часто используют не абсолютные величины концентраций загрязнителей, а натуральные логарифмы от них. В некоторых случаях такой подход оказывается эффективным и при мониторинге загрязнения почвы и оценке связанных с ним рисков.

Графики логнормального распределения при различных значениях параметров распределения приведены на рис. 4.8.

Экспоненциальным распределением называется распределение, функция плотности которого равна:

,

при ,

где λ — положительный параметр (рис. 4.9).

Экспоненциальное распределение хорошо описывает распределение смертности в зависимости от возраста для детского населения. В этом случае функция распределения F(х) определяет риск смерти в возрасте х или раньше.

Распределения Вейбулла, Гомперца, Гомперца—Мейкема. Распределение Вейбулла было выведено для анализа продолжительности безотказ­ной работы многокомпонентных технических систем, но оно во многих


Рис. 4.7. Плотность нормального Рис. 4.8. Плотность логнормального

распределения распределения

случаях эффективно описывает зависимость риска смерти от возраста для взрослого населения. Функция распределения и функция плотности распределения Вейбулла имеют вид:

F( ) = 1 – ,

.

Распределение Вейбулла имеет два параметра (оба они являются положительными числами). Параметр λ называется параметром масштаба, поскольку его увеличение или уменьшение приводит, соответственно, к сжатию или растяжению графика функции плотности вдоль оси абсцисс. Параметр ν называется параметром формы. При его изменениях можно получить различные варианты формы функции плотности, в частности, при ν = 0 распределение Вейбулла совпадает с экспоненциальным распределением (рис. 4.10).

Более точное описание распределения риска смерти для взрослых дают другие виды распределений, широко используемые в демографии (рис. 4.11):

— двухпараметрическое распределение Гомперца с функцией плотности:

;

— трехпараметрическое распределение Гомперца—Мейкема:

,

Рис. 4.9. Экспоненциальное Рис. 4. 10. Распределение

распределение Вейбулла с λ = 1

Распределение смертности по возрастам (данные из таблицы смертности для мужчин, СССР, 1968-1971 гг.) и ее аппроксимация с помощью плотности распределений Вейбулла, Гомперца и Гомперца-Мейкема

где A, R и α — положительные коэффициенты. Очевидно, что распределение Гомперца является частным случаем распределения Гомперца— Мейкема при А = 0.

Следующие виды распределений, построенные на основе стандартного нормального распределения, широко используются для проверки гипотез относительно нормальных случайных величин.

Распределение χ 2 (хи-квадрат). Если каждая из n независимых случийных величин ξ1, ξ2, …, ξn имеет стандартное нормальное распределение (ξi ~ N(0, 1)), то распределение случайной величины η, представляющей собой сумму квадратов ξi:

+

называется хи-квадратом распределением с n степенями свободы (η ~ ) (рис. 4.12).

При оценке рисков данное распределение используется в случае, когда как фактор риска, так и показатели здоровья, по которым оценивается риск, имеют конечное число градаций (в наиболее простом случае фактор риска и негативный эффект имеют по две градации — присутствуют или отсутствуют). Соответствующие методы расчетов рас­сматриваются в §2.

Распределение Стъюдента (t - распределение). Если каждая из (n + 1) не зависимых случайных величин ξ0, ξ1, ξ2, …, ξn распределена по нормальному закону с параметрами 0 и σ2 (ξ ~ N (0, σ2)), то распределение случайной величины η, равной

называется распределением Стьюдента с n степенями свободы (η ~ tn) (рис. 4.13).

Распределение Стьюдента является основой для наиболее популярного метода сравнения выборок (см. §3). Данный метод используется, в частности, для сравнения рисков при различных уровнях фактора риска в случае, если показатель здоровья, по которому определяется эффект фактора, представляет собой непрерывную величину.

Распределение Фишера (F - распределение). Если (п+m) независимых случайных величин ξ1, ξ2, …, ξn, ξn+1, ξn+m, распределены по нор­мальному закону с параметрами 0 и σ2i ~ N (0, σ2)), то распределение случайной величины η, равной

η =

(n слагаемых в числителе и т — в знаменателе), называется распределением Фишера с n и m степенями свободы (η ~ Fn,m) (рис. 4.14).

Рис. 4.12. Хи-квадрат распределение χ2 с n степенями свободы
Рис. 4.13. Распределение Стьюдента (t) с n степенями свободы
Рис. 4.14. Распределение Фишера (F) с n, m степенями свободы

На этом распределении основан метод анализа рисков при различных уровнях фактора риска в случае, если фактор риска является дискретной величиной, а используемый для оценки риска показатель здоровья — непрерывной величиной (см. § 2).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: