Проверка статистических гипотез

Статистической гипотезой называется всякое непротиворечивое

множество утверждений { Н 0, Н 1, …, Hk -1} относительно свойств

распределения случайной величины. Любое из утверждений Hi называется

альтернативой гипотезы. Простейшей гипотезой является двухальтернативная: { H 0, H 1}. В этом случае альтернативу H 0 называют нулевой гипотезой, а H ₁- конкурирующей гипотезой.

Критерием называется случайная величина U =ϕ (x 1,K, xn),где xi –

значения выборки, которая позволяет принять или отклонить нулевую гипотезу H0 Значения критерия, при которых гипотеза H0 отвергается, образуют критическую область проверяемой гипотезы, а значения критерия, при которых гипотезу принимают, область принятия гипотезы (область допустимых значений). Критические точки отделяют критическую область от области принятия гипотезы.

Ошибка первого рода состоит в том, что будет отклонена гипотеза H0,

если она верна ("пропуск цели"). Вероятность совершить ошибку первого рода обозначается α и называется уровнем значимости. Наиболее часто на практике принимают, что α = 0,05 или α = 0,01.

Ошибка второго рода заключается в том, что гипотеза H 0 принимается,

если она неверна ("ложное срабатывание"). Вероятность ошибки этого рода

обозначается β. Вероятность не допустить ошибку второго рода (1-β) называют мощностью критерия. Для нахождения мощности критерия необходимо знать плотность вероятности критерия при альтернативной гипотезе. Простые критерии с заданным уровнем значимости контролируют лишь ошибки первого рода и не учитывают мощность критерия.

Проверка гипотезы о равенстве вероятностей. Пусть произведено две

серии опытов, состоящих соответственно из n1 и n2 опытов. В каждом из них

регистрировалось появление одного и того же события А. В первой серии

событие А появилось в k1 опытах, во второй – в k2 опытах, причем частота

события А в первой серии получилась больше, чем во второй:

Разность между двумя частота получилась равной U = p₁^* – p₂^*. (15.1)

Спрашивается, значимо или не значимо это расхождение? Указывает ли оно на то, что в первой серии опытов событие A действительно вероятнее, чем во

второй, или расхождение между частотами надо считать случайным?

Выдвинем двухальтернативную гипотезу { H 0, H 1}, где:

H0 – различия в вероятностях не существует, т.е. обе серии опытов

произведены в одинаковых условиях, а расхождение U объясняется

случайными причинами,

H1 – различие в вероятностях существует, т.е. обе серии опытов

произведены не в одинаковых условиях.

В данном случае нуль-гипотеза H0 состоит в том, что обе серии опытов

однородны и что вероятность р появления события А в них одна и та же,

приближенно равная частоте, которая получится, если обе серии смешать в

одну:

При достаточно больших n1 и n2 каждая из случайных величин

p₁^* и p₂^* распределена практически нормально, с одним и тем же математическим ожиданием m = p ≈ p *. Что касается дисперсий D1 и D2 в первой и во второй сериях, то они различны и равны соответственно

В качестве критерия будем использовать случайную величину U = p₁^* – p₂^*, которая также имеет приближенно нормальное распределение с математическим ожиданием m _U =0 и дисперсией