Интервальные оценки

По известной величине выборочной характеристики ( или и др.) можно определить интервал, в котором с той или иной вероятностью определяется значение параметра генеральной совокупности, оцениваемого по этой выборочной характеристике.

Вероятности, признанные достаточными для того, чтобы уверенно судить о генеральных параметрах на основании выборочных характеристик, называются доверительными.

Обычно в качестве доверительных вероятностей выбирают значения 0,95, 0,99 или 0,999 (их принято выражать в процентах). Перечисленным значениям соответствуют 95, 99 и 99,9 %. Выбор той или иной доверительной вероятности производится исследователем исходя из практических соображений о той ответственности, с какой делаются выводы о генеральных параметрах.

38/

Наряду с точечными широко применяют интервальные оценки числовых характеристик случайных величин, выражающеся границами интервала, внутри которого с определенной вероятностью заключено истинное значение результата измерения. Вероятность того, что погрешность не выйдет за границы некоторого интервала, определяется по площади, ограниченной кривой распределения и границами этого интервала, отложенными по оси абсцисс (квантилями)

Таким образом, интервал , за границы которого погрешность не выйдет с некоторой вероятностью, называется доверительным интервалом, а характеризующая его вероятность - доверительной вероятностью. Границы этого интервала называются доверительными значениями погрешности. При измерениях можно задаваться доверительным интервалом и по нему определять доверительную вероятность, либо, наоборот, по доверительной вероятности подсчитывать доверительный интервал. Чем больше доверительная вероятность, тем шире доверительный интервал; поэтому на практике обычно выбирают доверительную вероятность 0,95 и даже 0,90.

Доверительный интервал обычно выражают через относительную величину в долях среднего квадратического отклонения (“кратность”) . Для нормального закона доверительную вероятность определяют по значениям интеграла вероятности (функции Лапласа), который в математической справочной литературе обозначается и определяется

Зная доверительные границы и можно определить доверительную вероятность

Рассмотренные точечные оценки параметров распределения дают оценку в виде числа, наиболее близкого к значению неизвестного параметра. Такие оценки используют только при большом числе измерений. Чем меньше объем выборки, тем легче допустить ошибку при выборе параметра. Для практики важно не только получить точечную оценку, но и определить интервал, называемый доверительным, между границами которого с заданной дове рителъной вероятностью

где q — уровень значимости; хн, хв— нижняя и верхняя границы интервала, находится истинное значение оцениваемого параметра.

39/

Дисперсионный анализ – анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов.

Обобщенно задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности:

- Вариативность, обусловленную действием каждой из исследуемых независимых переменных.

- Вариативность, обусловленную взаимодействием исследуемых независмых переменных.

- Вариативность случайную, обусловленную всеми неучтенными обстоятельствами.

Вариативность, обусловленная действием исследуемых переменных и их взаимодействием соотносится со случайной вариативностью. Показателем этого соотношения является F – критерий Фишера (метод, не имеющий ничего общего, кроме автора, с «угловым преобразованием Фишера»).

В отличие от корреляционного анализа, в дисперсионном исследователь исходит из предположения, что одни переменные выступают как влияющие (именуемые факторами или независимыми переменными), а другие (результативные признаки или зависимые переменные) – подвержены влиянию этих факторов. Хотя такое допущение и лежит в основе математических процедур расчета, оно, однако, требует осторожности рассуждений об источнике и объекте влияния.

Статистическая гипотеза представляет собой некоторое предположение о законе распределения случайной величины или о параметрах этого закона, формулируемое на основе выборки [3, 5, 11]. Примерами статистических гипотез являются предположения: генеральная совокупность распределена по экспоненциальному закону; математические ожидания двух экспоненциально распределенных выборок равны друг другу. В первой из них высказано предположение о виде закона распределения, а во второй – о параметрах двух распределений. Гипотезу, утверждающую, что различие между сравниваемыми характеристиками отсутствует, а наблюдаемые отклонения объясняются лишь случайными колебаниями в выборках, на основании которых производится сравнение, называют нулевой (основной) гипотезой и обозначают Н 0. Наряду с основной гипотезой рассматривают и альтернативную (конкурирующую, противоречащую) ей гипотезу Н 1. И если нулевая гипотеза будет отвергнута, то будет иметь место альтернативная гипотеза.

Различают простые и сложные гипотезы. Гипотезуназывают простой, если она однозначно характеризует параметр распределения случайной величины. Например, если l является параметром экспоненциального распределения, то гипотеза Н 0 о равенстве l = 10–простая гипотеза. Сложной называют гипотезу, которая состоит из конечного или бесконечного множества простых гипотез.

Проверка гипотезы основывается на вычислении некоторой случайной величины – критерия, точное или приближенное распределение которого известно. Обозначим эту величину через z, ее значение является функцией от элементов выборки z = z (x1, x2, …, xn). Процедура проверки гипотезы предписывает каждому значению критерия одно из двух решений – принять или отвергнуть гипотезу.

Принятие или отклонение гипотезы Н 0 по случайной выборке соответствует истине с некоторой вероятностью и, соответственно, возможны два рода ошибок. Ошибка первого рода возникает с вероятностью aтогда, когда отвергается верная гипотеза Н 0 и принимается конкурирующая гипотеза Н 1. Ошибка второго рода возникает с вероятностью b в том случае, когда принимается неверная гипотеза Н 0, в то время как справедлива конкурирующая гипотеза Н 1. Доверительная вероятность – это вероятность не совершить ошибку первого рода и принять верную гипотезу Н 0. Вероятность отвергнуть ложную гипотезу Н 0называется мощностью критерия.

40/

Проверка статистических гипотез – это один из основных методов математической статистики, который используется в эконометрике.

С помощью методов математической статистики можно проверить предположения о законе распределения некоторой случайной величины (генеральной совокупности), о значениях параметров этого закона (например, математического ожидания или дисперсии), о наличии корреляционной зависимости между случайными величинами, определенными на множестве объектов одной и той же генеральной совокупности.

Статистической гипотезой называется любое предположение о виде неизвестного закона распределения или о параметрах известных распределений.

Параметрической гипотезой называется гипотеза о значениях параметров распределения или о сравнительной величине параметров двух распределений.

Примером параметрической статистической гипотезы является гипотеза о равенстве математических ожиданий двух нормальных совокупностей.

Непараметрическими гипотезами называются гипотезы о виде распределения случайной величины.

Проверка статистической гипотезы означает проверку соответствия выборочных данных выдвинутой гипотезе.

Параллельно с выдвигаемой основной гипотезой рассматривают и противоречащую ей гипотезу, которая называется конкурирующей или альтернативной. Противоречащая гипотеза считается справедливой, если основная выдвинутая гипотеза отвергается.

Нулевой, основной или проверяемой гипотезой называется первоначально выдвинутая гипотеза, которая обозначается Н0.

Статистический критерий — строгое математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза с известным уровнем значимости. Построение критерия представляет собой выбор подходящей функции от результатов наблюдений (ряда эмпирически полученных значений признака), которая служит для выявления меры расхождения между эмпирическими значениями и гипотетическими.

Статистические критерии z, t и F называются параметрическими.

Параметрические критерии предназначены для проверки

гипотез о параметрах генеральной совокупности (среднем,

дисперсии, доле признака) или гипотез о типе распределения.

В статистике разработано также направление, которое

развивает непараметрические критерии. В этом случае вид и

параметры распределения не рассматриваются. Такие критерии

используют, в частности, для исследования генеральных

совокупностей, которые не распределены нормально.

Преимущества непараметрических методов

1. Могут использоваться для проверки гипотез о параметрах

генеральной совокупности, когда переменная не

распределена нормально.

2. Могут использоваться для номинальных и порядковых

данных.

3. Могут использоваться для проверки гипотез, которые не

связаны с параметрами генеральной совокупности.

4. В большинстве случаев для непараметрических методов

вычисления проще, чем для параметрических. Методы

более понятны. 4

Недостатки непараметрических методов

1. Они менее точны, чем соответствующие параметрические

критерии.

2. Они менее информативны.

3. Они менее эффективны. Например, для критерия знаков

нужна выборка из 100 человек, в то время, как для получения

аналогичных результатов при использовании z-критерия

достаточно было бы выборки из 60 человек.

41/

Корреляционный анализ

Величины, характеризующие различные свойства объектов, могут быть независимыми или взаимосвязанными. Различают два вида зависимостей между величинами (факторами): функциональную и статистическую [2, 3, 5].

При функциональной зависимости двух величин значению одной из них обязательно соответствует одно или несколько точно определенных значений другой величины. Функциональная связь двух факторов возможна лишь при условии, что вторая величина зависит только от первой и не зависит ни от каких других величин. Функциональная связь одной величины с множеством других возможна, если эта величина зависит только от этого множества факторов. В реальных ситуациях существует бесконечно большое количество свойств самого объекта и внешней среды, влияющих друг на друга, поэтому такого рода связи не существуют, иначе говоря, функциональные связи являются математическими абстракциями. Их применение допустимо тогда, когда соответствующая величина в основном зависит от соответствующих факторов.

Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения других (другой), и эти другие величины принимают некоторые значения с определенными вероятностями. Функциональную зависимость в таком случае следует считать частным случаем статистической: значению одного фактора соответствуют значения других факторов с вероятностью, равной единице. Более важным частным случаем статистической зависимости является корреляционная зависимость, характеризующая взаимосвязь значений одних случайных величин со средним значением других, хотя в каждом отдельном случае любая взаимосвязанная величина может принимать различные значения.

Если же у взаимосвязанных величин вариацию имеет только одна переменная, а другая является детерминированной, то такую связь называют не корреляционной, а регрессионной. Например, при анализе скорости обмена с жесткими дисками можно оценивать регрессию этой характеристики на определенные модели, но не следует говорить о корреляции между моделью и скоростью.

При исследовании зависимости между одной величиной и такими характеристиками другой, как, например, моменты старших порядков (а не среднее значение), то эта связь будет называться статистической, а не корреляционной.

Корреляционная связь описывает следующие виды зависимостей:

причинную зависимость между значениями параметров. Примером такой зависимости является взаимосвязь пропускной способности канала передачи данных и соотношения сигнал/шум (на пропускную способность влияют и другие факторы – характер помех, амплитудно-частотные характеристики канала, способ кодирования сообщений и др

Допущения:

выборка имеет достаточный объем. Понятие достаточного объема зависит от целей анализа, требуемой точности и надежности оценки коэффициентов корреляции, от количества факторов. Минимально допустимым считается объем, когда количество наблюдений не менее чем в 5–6 раз превосходит количество факторов;

выборки по каждому фактору являются однородными. Это допущение обеспечивает несмещенную оценку средних величин;

матрица наблюдений не содержит пропусков.

Если необходима проверка значимости оценки коэффициента корреляции, то требуется соблюдение дополнительного условия – распределение вариант должно подчиняться нормальному закону.

Задача анализа решается в несколько этапов:

проводится стандартизация исходной матрицы;

вычисляются парные оценки коэффициентов корреляции;

проверяется значимость оценок коэффициентов корреляции, незначимые оценки приравниваются к нулю. По результатам проверки делается вывод о наличии связей между вариантами (факторами).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: