Табулирование

Табулирование заключается просто в подсчете ко­личества событий, которые попадают в различные ка­тегории. Табулирование может принимать форму:

1 Простая табуляция - подсчет количества событий, которые попадают в каждую категорию, когда категории базируются на одной пере­менной.

Простая табуляция связана с подсчетом для един­ственной переменной.

2 Перекрестная табуляция - подсчет количества событий, которые попадают в каждую из нескольких категорий, когда категории базируются на двух и более переменных, рассматриваемых одновременно.

Одномерная табуляция может использо­ваться в целях.

1) Для определе­ния степени безответности позиций анкеты.

Степень безответности позиций зачастую служит полезным индикатором качества исследова­ния. Когда она чрезмерна, сомнительным представля­ется исследование в целом и возникает необходимость критически пересмотреть его цели и методы.

2) Для локализации грубых ошибок (определяются позднее).

Грубая ошибка – ошибка, которая возникает при редактировании, кодировании, клавиатурном наборе или табулировании данных.

3) Для локализации посторонних значений (опреде­ляются позднее).

Постороннее значение - наблюдение, настолько отличающееся по величине от ос­тальных наблюдений, что аналитик предпочитает обраба­тывать его как особое событие.

4) Для определения эмпирического распределения рассматриваемой переменной. Некоторые аналитики игнорируют распределение переменных и автоматически рассчитывают такие сум­марные статистики, как среднее значение. Игнориро­вание распределения переменных может привести к серьезной ошибке.

Часто распределение лучше всего представить на­глядно с помощью гистограммы - определенная форма столбчатой диаграммы, в которой последовательные значения переменной раз­мещаются по оси абсцисс или X, а частота или относи­тельная частота появления значений указывается по оси ординат или оси У.

Полигон частот - рисунок, получаемый из гистограммы посредством со­единения верхних точек столбцов гистограммы прямыми линиями.

Альтернативным способом проникновения в суть эмпирического распределения является построение эмпирической функции накопленных частот.

Функция накопленного распределения - функция, которая показывает число событий, имеющих значения меньше или равные специфицированной вели­чине; эта функция генерируется посредством соединения точек, представляющих заданные комбинации X (значе­ний) и V (накопленных частот), прямыми линиями.

Функция накопленного распределения может также использоваться для определения того, соответ­ствует ли распределение наблюдаемых доходов подхо­дящему теоретическому или предполагаемому распре­делению. Кроме того, она может использоваться для расчета некоторых широко используемых мер поло­жения, таких как медиана, квартили и процентили.

Медиана выборки - это значение, для которого 50 % наблюдаемых значений лежат ниже, а 50 % выше него. Чтобы считать медиану вы­борки с графика накопленного распределения, просто проведите горизонтальную линию от 0,50 на оси орди­нат (Y). Степень приближения к точному значению можно проверить, рассчитав медиану с использованием деталь­ных данных.

Точно таким же образом можно определить кварти­ли выборки.

Первый квартиль выборки (также извест­ный как 25 % процентиль) - значение, для которо­го 25 % наблюдений находятся ниже него. Первый квартиль выборки определяется прочерчиванием го­ризонтальной линии от точки 0,25 на оси ординат, где откладываются относительные частоты, до пересече­ния с графиком и проведением вертикальной линии от точки пересечения на горизонтальную ось. Значение первого квартиля считывается в точке пересечения с осью X. Процедура определения третьего квартиля (75 % процентиля) или любого процентиля принципиально не отличается от использованной для установления медианы и первого квартиля. Единствен­ным различием будет то, какая точка начала горизон­тальной линии на оси ординат будет рассматриваться.

Стандартное отклонение определяет меру разброса данных. Оно рассчитывается по одномерной табуля­ции посредством расчета отклонения каждого значе­ния от среднего и возведения в квадрат этих отклоне­ний. Затем квадраты отклонений умножаются на соответствующие значения частоты, произведения суммируются, а их сумма делится на число событий, уменьшенное на единицу, что дает рассеяние выборки. Квадратный корень из рассеяния выборки называется ее стандартным отклонением.

5) Для расчета итоговых статистик.

Представление табулированных данных. Табулированные результаты для коммерческих мар­кетинговых исследований редко представляются с ис­пользованием баннеров.

Баннер - последовательный ряд перекрестных табуляций между критерием или зависимой переменной и несколькими факторными переменными, оформленный в виде единой таблицы.

Зависимая переменная или какое-то подлежащее объяснению явление обычно определяет название строк таблицы. Она также имеет название стаб. Заранее предсказанные (предикторные) или факторные переменные определяют колонки таблицы, а каждое значение этих переменных называется баннерной точкой.

Баннерные таблицы обладают несколькими преиму­ществами:

1) они позволяют представить большой объем информации на очень ограниченном пространстве ее носителя;

2) этот формат представления удобен для восприятия менеджерами, которые не занимаются исследованием. Этим менед­жерам просто необходимо взглянуть на то, каким об­разом распределились ответы на заданные актуальные вопросы.

Трудность использования таких таблиц со­стоит в том, что:

1) они имеют тенденции к сокрытию вза­имосвязей, которые можно увидеть только при одно­временном наблюдении нескольких переменных (например, совместное влияние дохода и размера семьи на количество автомобилей в семье);

2) затрудняют возможность зондиро­вания альтернативных объяснений полученных ре­зультатов;

3) в баннерном формате труднее обнаруживать ошибки в представляемых данных, воз­никшие в результате неправильного кодирования или редактирования.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: