Меры изменчивости (МИ) (источник слайды)

Если меры центральной тенденции отражают наиболее типичное, меры изменчивости – численные выражения индивидуальных различий (межиндивидуальной вариации признака)

Размах – самая простая МИ. Равна расстоянию между минимальным и максимальным значением переменной. Можно представить одним числом, но чаще указывают max/min.

Недостаток!: очень сильная зависимость от выбросов.

Стд. отклонение (часто обозначается SD) – мера отклонения значений от среднего. Чем больше SD, тем больше изменчивость (выше вероятность встретить «нетипичные» случаи).

Кварти́ль – 3 точки, которые делят все распределение на четыре равные части. Медиана – одна из них (2-ой квартиль). Есть верхний и нижний квартили (1-ой квартиль и 3-ий квартиль).

Межквартильный размах – более устойчив к выбросам, используется с порядковыми или не нормально распределенными переменными.

Итог предварительной оценки данных:

· Получение «чистых» данных

· Определение варианта графического представления (в зависимости от природы данных)

· Оценка характера данных (распределения) с помощью описательных статистики – модель описания

· оценка нормальности распределения количественных переменных

· Подготовка к следующему этапу проверки гипотез – модели стат. вывода

38. Первичная обработка данных научного исследования. Ошибки данных, выбросы.

Важно соблюдение принципа GIGO (сокр. от Garbage In Garbage Out) – "если мусор на входе, то мусор и на выходе"

Первый шаг в обработке данных – их проверка:

· ошибки данных

· пропуски данных

· выбросы

Проблема поиска ошибок – очевидные / неочевидные ошибки

Варианты:

  • опечатки на уровне заполнения анкеты/перенесения данных в таблицу
  • сознательное искажение данных испытуемым
  • логические ошибки (неправильное понимание инструкции) и пр.

Примеры:

l возраст = 112 лет;

l время поиска чисел табл. Шульте = 11 сек.

l одинаковые баллы на все вопросы 5-балльной шкалы

Решение: исправление или исключение

Выбросы – значения признака, которые очень сильно отличаются от большинства значений в выборке

Два источника:

ошибки измерения, наблюдения или записи (включая варианты, описанные выше)

наличие двух разных популяций в одной выборке


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: