В прошлых разделах испытание касалось сравнения выборочной статистики с соответствующими генеральными параметрами. Для больших выборочных совокупностей мы предпологали, что генеральные совокупности нормальны или приблизительно нормальны. Теперь мы будем рассматривать примеры испытаний гипотез, которые не требуют ни этого предположения, ни использования генеральных параметров. Эта группа испытании относится к непараметрическим испытаниям. Общая процедура испытания гипотез та же, что и для параметрических испытаний. Но расчет проверочной статистики другой.
Рассмотрим самый общий непараметрический критерий хн-квадрат. Это — метод сравнения ряда наблюдаемых частот с ожидаемыми частотами, если верна нулевая гипотеза. Мы будем использовать этот метод для проверки взаимосвязи признаков.
Признак — это характеристика переменной. Характеристики обычно относят к категории. Например цвет глаз — это признак человека, может быть отнесен к категориям: карие, голубые, серые или зеленые. Положение счетов клиентов в банке может быть отнесено к категориям: "всегда в кредите", "обычно в кредите", "часто превышает кредит", "постоянно в долгу"- Месячные суммы выручки от продажи товаров могут быть описаны как "высокие", "средние", "низкие".
|
|
Гл. 6. Статистический вывод 2: испытание гипотез _____________ 187
Предположим, нас интересуют две разные характеристики переменной и мы хотим знать существует ли между ними какие-либо связи. Например, у нас имеются данные по оценкам, полученным группой студентов на экзамене по бухгалтерскому учету и на экзамене по математике. Нас интересует, существует ли связь между оценками, полученными на экзамене по бухучету и тем, сдали ли студенты или провалили экзамен по математике. Могут быть следующие категории:
Таблица 6.5. Пример таблицы сопряженности
Экзамен по математике | Оценки по экзамену бух. учета | |||
А | В | С | Не сдали | |
Сдали Не сдали |
Число или частота студентов, которые сдали экзамен по математике и получили оценку Л по бухгалтерскому учету, записано в верхней левой части таблицы. Число студентов, не сдавших математику и получивших оценку Л по бухгалтерскому учету, записывается в нижней левой части таблицы и т.д. Такой тип таблицы называется таблицей сопряженности.
Таблица 6.5. имеет две строки и четыре столбца, т.е. является таблицей 2x4 (два на четыре). Используя соответствующую нулевую гипотезу, мы можем рассчитать число студентов, которое ожидается в каждой клетке. Если нулевая гипотеза верна, различия между наблюдаемыми и ожидаемыми частотами будут небольшие. Будем использовать те же правила для решения, как и в прошлом испытании. Проверочная статистика рассчитывается на основе разницы между наблюдаемыми и ожидаемыми частотами для всех клеток таблицы.
|
|
Если обозначить наблюдаемую частоту события f0 и ожидаемую частоту — fE, то (f0 - fg) — различия между наблюдаемой и ожидаемой частотами. Проверочной статистикой будет служить:
I |
Возведение в квадрат разницы (f0 - fE) необходимо для того, чтобы избежать нулевого эффекта при суммировании отрицательных и положительных величин. К тому же, чтобы достичь независимости от значения фактических частот, квадраты отклонений делятся на ожидаемые частоты. Это нормализует все величины. Получаемая статистика подчиняется % -распределению при достаточно больших значениях ожидаемых частот. Ориентиром обычно служит условие:.
fE2 5.
188. Ч. 2. Анализ данных как составная часть принятия решений
Если одна или более ожидаемых частот меньше, чем 5, то категории должны быть скомбинированны до тех пор, пока частота не превысит установленного значения.
Для таблиц сопряженности 2 х 2, в которых сумма частот меньше или равна 100, иногда применяется корректировка — поправка Йетса. Тогда проверочная статистика вычисляется по следующей формуле:
*2=1 |
(|f„-fE|-0,5)2"
Такая поправка проводится потому, что х является непрерывным распределением, а данные выборки - дискретные. В гл. 2 мы обсуждали необходимость такой корректировки при использовании нормального распределения для аппроксимации дискретного распределения. Для больших выборок разница между исправленными и неисправленными величинами % является небольшой и в таких случаях корректировка не требуется.
Как мы установили в гл. 4, форма х2-распределения зависит от числа степеней свободы в данной задаче. При использовании таблиц сопряженности число степеней свободы равняется:
(г-1)(с-1).
где г и с — число строк и столбцов в таблице сопряженности. Если таблица имеет только одну строку, то число степеней свободы: (с - 1).
LJ Пример 6.17. Компания "Autosure pic" (товарищество с ограниченной ответственностью) является крупной страховой компанией, специализирующейся на страховании автомобилей. Обычной политикой компании является начисление различных премий в соответствии с размером машины, которая страхуется. Чем больше машина, тем больше выплаты. Однако такая политика оказывается неправильной, поскольку руководители отделов сообщают о большой частоте заявлений о случаях личного ущерба для машин меньших размеров. Один из аналитиков компании исследовал данные из 566 недавно поступивших заявлений. Собранные данные представлены в таблице 6.6.
Таблица 6.6. Данные 566 ааявителей
Тип заявления | Размер страхуемой машины | ||
маленький | средний | большой | |
Есть личный ущерб Нет личного ущерба | 120 149 | 57 105 | 42 93 |
Указывают ли данные на то, что частота заявлений о личном ущербе связана с размером страхуемой машины?
Гл. 6. Статистический вывод 2: испытание гипотез _________ 189