Тема 1.5. Меры центральной тенденции. Меры изменчивости

Экспериментатор принуждает природу разоблачаться.

Клод Бернар

Среди мер центральной тенденции чаще всего используют среднюю арифметическую величину (М) и медиану (Ме).

При малом числе первичных результатов и при отсутствии их предварительной группировки значение средней арифметической получают просто путем последовательного суммирования исходных величин (Х) с последующим делением этой суммы на общее количество исходных данных (N):

M = ∑Х / N

Если массив первичных данных подвергался предварительной группировке, то М находят путем суммирования (для каждого класса) произведения частоты класса (f) на центр группировки класса (X i), а полученную величину опять же делят на общее количество исходных данных (N):

M = ∑f ∙Xi / N

Возьмем для примера таблицу из предыдущей темы (тема 4, стр. 6), в которой произведена группировка массива данных:

Классы группи­ровки Границы классов Точные границы классов Центры классов (Xi) Первичные распределения Частота встречаемости (f)
  55-59 50-54 45-49 40-44 35-39 30-34 25-29 20-24 15-19 10-14 54.5 – 59.5 49.5 – 54.5 44.5-49.5 39.5-44.5 34.5-39.5 29.5-34.5 24.5-29.5 19.5-24.5 14.5-19.5 9.5-14.5   / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / /  
∑f=50

(57∙1) + (52∙1) + (47∙3) + (42∙4) + (37∙6) + (32∙7) + (27∙12) + (22∙6) + (17∙8) + (12∙2) = 1480

М = 1480 / 50 = 29,60.

Другой мерой центральной тенденции, особенно для порядко­вых величин, является медиана. Мы уже упоминали о медиане, как о срединном или центральном значении величины признака (см. тему 4, стр.2).

Медиана (лат. mediana – средняя) – это точка на измеритель­ной шкале, выше которой находится точно половина наблюдений, и ниже которой – так же точно находится половина наблюдений.

По определению, медиана – не отдельное наблюдение или измерение, а точка на шкале.

Для вычисления медианы воспользуемся таблицей накоплен­ных частот:

Классы группировки Точные границы классов Частота встречаемости (f) Накопленные частоты (fcum)
  54.5 – 59.5 49.5 – 54.5 44.5 – 49.5 39.5 – 44.5 34.5 – 39.5 29.5 – 34.5 24.5 – 29.5 19.5 – 24.5 14.5 – 19.5 9.5 – 14.5 12 8 6 2  

Из таблицы становится видно, что величины накопленных частот (fcum) получают путем последовательного суммирования (снизу вверх) исходного распределения частот (частот встречаемости): 2 + 6 = 8; 2 + 6 + 8 = 16 и т.д.

Выполняем последовательно ряд процедур:

1. Находим половину наблюдений в массиве данных

N / 2 = 50 / 2 = 25.

2. Суммируем частоты, начиная с минимального класса группировки, до класса, содержащего половину наблюдений (подчеркнуто), т.е. медиану

2 + 6 + 8 + 12 = 28.

Отсюда следует, что медиана располагается в 4-м классе группировки с точными границами 24.5 – 29.5.

3. Определяем, сколько же наблюдений из класса, содержащего медиану, необходимо для того, чтобы ее найти. Т.к. сумма накопленных частот предыдущих классов равна 16, то из медианного класса необходимо еще 25 – 16 = 9 наблюдений.

4. Вычисляем ту долю интервала на шкале, которая позволит определить точное положение медианы. Если в медианном классе имеем 12 наблюдений, и наблюдения в пределах класса распределены равномерно, то при ширине класса равной 5 единицам, получаем:

9 / 12 ∙ 5 = 3,75.

5. Прибавляем полученный результат к нижней точной границе класса группировки, содержащего медиану:

Ме = 24,5 + 3,75 = 28,25.

Аналитическая формула для нахождения медианы, приведенная ниже, отражает всю совокупность рассмотренных процедур:

½ N – Fb

Ме = L + ------------ i, где

f p

L – нижняя точная граница класса группировки, содержащего медиану;

Fb – сумма частот классов ниже L;

fp – сумма частот класса, содержащего медиану;

N – число наблюдений (измерений);

i – ширина класса группировки.

Следует отметить, что в случае нормального (гауссова) распреде­ления первичных результатов наблюдений (измерений) все меры центральной тенденции, включая М и Ме, совпадают (см. тему 4, стр. 2). В нашем же случае, когда распределение первичных результа­тов отли­чается от нормального, величины М и Ме не совпадают: 29,60 ≠ 28,25 (см. там же асимметричное распределение).

Для характеристики степени рассеивания отдельных величин вокруг средней арифметической используются разные меры изменчи­вости в зависимости от применяемых шкал измерения.

Для характеристики рассеивания величин интервальных шкал и шкал отношений пользуются значением среднеквадратичного отклонения (σ).

Для величин порядковых шкал используются значения полуквартильных отклонений (Q1 и Q2).

При несгруппированных данных производится расчет стандартного отклонения (S), что практически является синонимом среднего квадратичного отклонения (σ).

Выполняем последовательно ряд процедур:

1. Рассчитываем среднюю арифметическую величину (М).

2. Находим отклонение (х) каждого результата измерения (Х) от средней арифметической величины: х = Х – М.

3. Возводим найденное значение отклонения каждого результата от среднего в квадрат: х2.

4. Суммируем значения квадратов отклонений всех результатов: ∑х2.

5. Делим сумму квадратов отклонений на общее число наблюдений (N) и получаем величину, называемую дисперсией (D):

D = ∑x2 / N

6. Извлекаем квадратный корень из дисперсии и получаем величину стандартного отклонения (S), или среднеквадратичного отклонения (σ):

S = √D, или σ = √D.

При сгруппированных данных формула расчета дисперсии несколько иная:

∑f ∙ (xi – M)2

D = -----------------, где

N

f – частота каждого класса группировки;

xi – центр каждого класса группировки;

М – средняя арифметическая;

N – число измерений.

Полуквартильные отклонения определяют для левой и правой сторон распределения экспериментальных данных, следовательно, их два. Каждое из полуквартильных отклонений есть величина, соответствующая половине области распределения центральных 50 % данных на шкале измерений. Следовательно, любое распределение экспериментальных данных может быть разделено на 4 равные части, каждая из которых будет включать себя 25 % наблюдений. Если начать от минимальной величины, то первые 25 % наблюдений закончатся на точке Q1 (границе первого квартиля). Если отсчитывать от максимума, то последние 25 % наблюдений закончатся на точке Q3 (границе четвертого квартиля). Медиана позволяет разграничить второй и третий квартили в точке Q2, которая в случае нормального распределения совпадет с Ме, т.е. с параметром средней величины.

С помощью полуквартильных отклонений можно опреде­лять рассеивание экспериментальных данных вокруг медианы.

При асимметричном распределении полуквартильные отклоне­ния также рассчитывают с учетом вычисленного значения для Ме (Q2). Возьмем в качестве примера таблицу (тема 4, стр. 6), в которой произведена группировка массива данных, где М и Ме не совпадают: 29,60 ≠ 28,25. Если Ме = 28,25, то Ме левого интервала Q1 = 19,5 + 12,5 – 10 ∙ 5 = 21,58, а Ме правого 6 интервала Q3 = 39,5 + 12,9 – 9 ∙ 5 = 36,58.* Для левого интервала Q2 – Q1 = 6

28,25 – 21,58 = 6,67, а для правого интервала Q3 – Q2 = 36,58 – 28,25 = 8,33. С помощью расчета полуквартилей легко определяется малейшая правосторонняя или левосторонняя асимметрия любого распределения. Если Q3 – Q2 › Q2 – Q1, то асимметрия левосторонняя (как в нашем рассматриваемом случае), а если Q3 – Q2 ‹ Q2 – Q1, то асимметрия правосторонняя.

Меры центральной тенденции (М или Ме) и меры изменчивости (D, S, σ, Q) используются:

­ для интерпретации первичных результатов;

­ для проверки статистической значимости различий между результатами исследования двух разных выборок.

Контрольные вопросы

1. Как получают среднюю арифметическую при малом числе первичных результатов? Подтвердите ответ формулой.

2. Как находят среднюю арифметическую при группировке массива первичных данных? Подтвердите ответ формулой.

3. Дайте определение медианы. Напишите аналитическую формулу для нахождения медианы.

4. Какие меры изменчивости используют для тех или иных шкал измерения? Среднеквадратичное отклонение. Полуквартильные отклонения.

5. Опишите формулой вычисление среднего квадратичного отклонения из величины дисперсии при несгруппированных данных.

6. Какова формула расчета дисперсии при сгруппированных данных?

7. Что определяется с помощью полуквартильных отклонений?

8. С какой целью используются меры центральной тенденции и меры изменчивости?

* Аналитическую формулу для расчета Ме смотри на странице.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: