Очистка данных

Основные проблемы очистки можно классифицировать по следующим уровням6

уровень ячейки таблицы
уровень записи
уровень таблицы БД
уровень одиночной БД
уровень множества БД

1. Уровень ячейки таблицы. К ошибкам в ячейке БД можно отнести:

· орфографические ошибки (опечатки) при вводе

· отсутствие данных (незаполненные ячейки, содержащие значение NULL)

· фиктивные значения – введенные оператором, но не имеющие смысла (например, почтовый индекс 99999, возраст клиента 999 лет и другие)

· логически неверные значения (например, в поле «город» находится значение «Россия»)

· закодированные значения – сокращенная запись или кодировка реальных данных для уменьшения занимаемого места

· составные значения – содержащие несколько логических данных в одной ячейке таблицы. Это возможно для строгого или текстового форматов. Кроме того, может отсутствовать формат записи в такие поля.

2. Уровень записи. На этом уровне возникает проблемы противоречивости значений в разных полях записи, описывающей один объект. Например, «возраст»=22, «дата рождения»=12.12.86.

3. Уровень таблицы БД. Это проблемы, связанные с несоответствием информации, хранящейся в таблице и относящейся к разным объектам. Это может быть:

нарушение уникальности – значения, соответствующие уникальным атрибутам разных объектов являются одинаковыми
отсутствие стандартов на формат записи – из-за этого может быть дублирование данных или их противоречивость.

4. Уровень одиночной БД. Проблемы нарушения целостности БД.

5. Уровень множества БД. Проблемы неоднородности структур БД и хранящейся в них информации:

различие структур: различие наименований полей, типов, размеров
в разных БД есть одинаковые наименования разных атрибутов
одинаковые данные представлены по-разному
разная классификация элементов

Не все проблемы могут быть устранены при очистке. Кроме того, данные, достоверность которых не влияет на процесс принятия решений, могут остаться неочищенными.

Этапы очистки:

1. выявление проблем в данных

2. определение правил очистки

3. тестирование правил очистки

4. непосредственная очистка

1. Выявление проблем в данных. Анализ данных производиться 2 методами: профайлинг и Data Mining.

Профайлинг – грубый анализ отдельных атрибутов данных (тип, длина, спектр значений, дискретные значения и их частота, уникальность, наличие NULL-значений).

Data Mining – выполняет группировку, обобщения, поиск ассоциаций, последовательностей, т.е. помогает найти специфические модели в больших наборах данных.

2. Определение правил очистки данных. Сначала устраняются проблемы отдельных источников данных. Потом выполняется интеграция данных и устранение проблем множественности источников (на этом этапе должна быть выработаны правила, часть представлена ПО очистки).

3. Тестирование правил. Правила должны оцениваться на копиях данных. Этапы определения правил, и их тестирование могут выполняться итерационно.

4. Непосредственная очистка данных. Преобразования выполняются в два приема в соответствии с определенными ранее правилами. Сначала – проблемы, связанные с отдельными источниками, а затем – с многоженствами БД.

5. Замена загрязненных данных очищенными. Данные ХД имеются в подсистемах анализа данных. От вида анализа зависит реализация структур.