Если меры центральной тенденции отражают наиболее типичное, меры изменчивости – численные выражения индивидуальных различий (межиндивидуальной вариации признака)
Размах – самая простая МИ. Равна расстоянию между минимальным и максимальным значением переменной. Можно представить одним числом, но чаще указывают max/min.
Недостаток!: очень сильная зависимость от выбросов.
Стд. отклонение (часто обозначается SD) – мера отклонения значений от среднего. Чем больше SD, тем больше изменчивость (выше вероятность встретить «нетипичные» случаи).
Кварти́ль – 3 точки, которые делят все распределение на четыре равные части. Медиана – одна из них (2-ой квартиль). Есть верхний и нижний квартили (1-ой квартиль и 3-ий квартиль).
Межквартильный размах – более устойчив к выбросам, используется с порядковыми или не нормально распределенными переменными.
Итог предварительной оценки данных:
· Получение «чистых» данных
· Определение варианта графического представления (в зависимости от природы данных)
|
|
· Оценка характера данных (распределения) с помощью описательных статистики – модель описания
· оценка нормальности распределения количественных переменных
· Подготовка к следующему этапу проверки гипотез – модели стат. вывода
38. Первичная обработка данных научного исследования. Ошибки данных, выбросы.
Важно соблюдение принципа GIGO (сокр. от Garbage In Garbage Out) – "если мусор на входе, то мусор и на выходе"
Первый шаг в обработке данных – их проверка:
· ошибки данных
· пропуски данных
· выбросы
Проблема поиска ошибок – очевидные / неочевидные ошибки
Варианты:
- опечатки на уровне заполнения анкеты/перенесения данных в таблицу
- сознательное искажение данных испытуемым
- логические ошибки (неправильное понимание инструкции) и пр.
Примеры:
l возраст = 112 лет;
l время поиска чисел табл. Шульте = 11 сек.
l одинаковые баллы на все вопросы 5-балльной шкалы
Решение: исправление или исключение
Выбросы – значения признака, которые очень сильно отличаются от большинства значений в выборке
Два источника:
ошибки измерения, наблюдения или записи (включая варианты, описанные выше)
наличие двух разных популяций в одной выборке