Табулирование

Табулирование заключается просто в подсчете количества событий, которые попадают в различные категории. Табулирование может принимать форму:

1 Простая табуляция - подсчет количества событий, которые попадают в каждую категорию, когда категории базируются на одной переменной.

Простая табуляция связана с подсчетом для единственной переменной.

2 Перекрестная табуляция - подсчет количества событий, которые попадают в каждую из нескольких категорий, когда категории базируются на двух и более переменных, рассматриваемых одновременно.

Одномерная табуляция может использоваться в целях.

1) Для определения степени безответности позиций анкеты.

Степень безответности позиций зачастую служит полезным индикатором качества исследования. Когда она чрезмерна, сомнительным представляется исследование в целом и возникает необходимость критически пересмотреть его цели и методы.

2) Для локализации грубых ошибок (определяются позднее).

Грубая ошибка – ошибка, которая возникает при редактировании, кодировании, клавиатурном наборе или табулировании данных.

3) Для локализации посторонних значений (определяются позднее).

Постороннее значение - наблюдение, настолько отличающееся по величине от остальных наблюдений, что аналитик предпочитает обрабатывать его как особое событие.

4) Для определения эмпирического распределения рассматриваемой переменной. Некоторые аналитики игнорируют распределение переменных и автоматически рассчитывают такие суммарные статистики, как среднее значение. Игнорирование распределения переменных может привести к серьезной ошибке.

Часто распределение лучше всего представить наглядно с помощью гистограммы - определенная форма столбчатой диаграммы, в которой последовательные значения переменной размещаются по оси абсцисс или X, а частота или относительная частота появления значений указывается по оси ординат или оси У.

Полигон частот - рисунок, получаемый из гистограммы посредством соединения верхних точек столбцов гистограммы прямыми линиями.

Альтернативным способом проникновения в суть эмпирического распределения является построение эмпирической функции накопленных частот.

Функция накопленного распределения - функция, которая показывает число событий, имеющих значения меньше или равные специфицированной величине; эта функция генерируется посредством соединения точек, представляющих заданные комбинации X (значений) и V (накопленных частот), прямыми линиями.

Функция накопленного распределения может также использоваться для определения того, соответствует ли распределение наблюдаемых доходов подходящему теоретическому или предполагаемому распределению. Кроме того, она может использоваться для расчета некоторых широко используемых мер положения, таких как медиана, квартили и процентили.

Медиана выборки - это значение, для которого 50 % наблюдаемых значений лежат ниже, а 50 % выше него. Чтобы считать медиану выборки с графика накопленного распределения, просто проведите горизонтальную линию от 0,50 на оси ординат (Y). Степень приближения к точному значению можно проверить, рассчитав медиану с использованием детальных данных.

Точно таким же образом можно определить квартили выборки.

Первый квартиль выборки (также известный как 25 % процентиль) - значение, для которого 25 % наблюдений находятся ниже него. Первый квартиль выборки определяется прочерчиванием горизонтальной линии от точки 0,25 на оси ординат, где откладываются относительные частоты, до пересечения с графиком и проведением вертикальной линии от точки пересечения на горизонтальную ось. Значение первого квартиля считывается в точке пересечения с осью X. Процедура определения третьего квартиля (75 % процентиля) или любого процентиля принципиально не отличается от использованной для установления медианы и первого квартиля. Единственным различием будет то, какая точка начала горизонтальной линии на оси ординат будет рассматриваться.

Стандартное отклонение определяет меру разброса данных. Оно рассчитывается по одномерной табуляции посредством расчета отклонения каждого значения от среднего и возведения в квадрат этих отклонений. Затем квадраты отклонений умножаются на соответствующие значения частоты, произведения суммируются, а их сумма делится на число событий, уменьшенное на единицу, что дает рассеяние выборки. Квадратный корень из рассеяния выборки называется ее стандартным отклонением.

5) Для расчета итоговых статистик.

Представление табулированных данных. Табулированные результаты для коммерческих маркетинговых исследований редко представляются с использованием баннеров.

Баннер - последовательный ряд перекрестных табуляций между критерием или зависимой переменной и несколькими факторными переменными, оформленный в виде единой таблицы.

Зависимая переменная или какое-то подлежащее объяснению явление обычно определяет название строк таблицы. Она также имеет название стаб. Заранее предсказанные (предикторные) или факторные переменные определяют колонки таблицы, а каждое значение этих переменных называется баннерной точкой.

Баннерные таблицы обладают несколькими преимуществами:

1) они позволяют представить большой объем информации на очень ограниченном пространстве ее носителя;

2) этот формат представления удобен для восприятия менеджерами, которые не занимаются исследованием. Этим менеджерам просто необходимо взглянуть на то, каким образом распределились ответы на заданные актуальные вопросы.

Трудность использования таких таблиц состоит в том, что:

1) они имеют тенденции к сокрытию взаимосвязей, которые можно увидеть только при одновременном наблюдении нескольких переменных (например, совместное влияние дохода и размера семьи на количество автомобилей в семье);

2) затрудняют возможность зондирования альтернативных объяснений полученных результатов;

3) в баннерном формате труднее обнаруживать ошибки в представляемых данных, возникшие в результате неправильного кодирования или редактирования.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями: