Основные проблемы очистки можно классифицировать по следующим уровням6
- уровень ячейки таблицы
- уровень записи
- уровень таблицы БД
- уровень одиночной БД
- уровень множества БД
1. Уровень ячейки таблицы. К ошибкам в ячейке БД можно отнести:
· орфографические ошибки (опечатки) при вводе
· отсутствие данных (незаполненные ячейки, содержащие значение NULL)
· фиктивные значения – введенные оператором, но не имеющие смысла (например, почтовый индекс 99999, возраст клиента 999 лет и другие)
· логически неверные значения (например, в поле «город» находится значение «Россия»)
· закодированные значения – сокращенная запись или кодировка реальных данных для уменьшения занимаемого места
· составные значения – содержащие несколько логических данных в одной ячейке таблицы. Это возможно для строгого или текстового форматов. Кроме того, может отсутствовать формат записи в такие поля.
2. Уровень записи. На этом уровне возникает проблемы противоречивости значений в разных полях записи, описывающей один объект. Например, «возраст»=22, «дата рождения»=12.12.86.
|
|
3. Уровень таблицы БД. Это проблемы, связанные с несоответствием информации, хранящейся в таблице и относящейся к разным объектам. Это может быть:
- нарушение уникальности – значения, соответствующие уникальным атрибутам разных объектов являются одинаковыми
- отсутствие стандартов на формат записи – из-за этого может быть дублирование данных или их противоречивость.
4. Уровень одиночной БД. Проблемы нарушения целостности БД.
5. Уровень множества БД. Проблемы неоднородности структур БД и хранящейся в них информации:
- различие структур: различие наименований полей, типов, размеров
- в разных БД есть одинаковые наименования разных атрибутов
- одинаковые данные представлены по-разному
- разная классификация элементов
Не все проблемы могут быть устранены при очистке. Кроме того, данные, достоверность которых не влияет на процесс принятия решений, могут остаться неочищенными.
Этапы очистки:
1. выявление проблем в данных
2. определение правил очистки
3. тестирование правил очистки
4. непосредственная очистка
1. Выявление проблем в данных. Анализ данных производиться 2 методами: профайлинг и Data Mining.
Профайлинг – грубый анализ отдельных атрибутов данных (тип, длина, спектр значений, дискретные значения и их частота, уникальность, наличие NULL-значений).
Data Mining – выполняет группировку, обобщения, поиск ассоциаций, последовательностей, т.е. помогает найти специфические модели в больших наборах данных.
2. Определение правил очистки данных. Сначала устраняются проблемы отдельных источников данных. Потом выполняется интеграция данных и устранение проблем множественности источников (на этом этапе должна быть выработаны правила, часть представлена ПО очистки).
|
|
3. Тестирование правил. Правила должны оцениваться на копиях данных. Этапы определения правил, и их тестирование могут выполняться итерационно.
4. Непосредственная очистка данных. Преобразования выполняются в два приема в соответствии с определенными ранее правилами. Сначала – проблемы, связанные с отдельными источниками, а затем – с многоженствами БД.
5. Замена загрязненных данных очищенными. Данные ХД имеются в подсистемах анализа данных. От вида анализа зависит реализация структур.