Очистка данных

Основные проблемы очистки можно классифицировать по следующим уровням6

  1. уровень ячейки таблицы
  2. уровень записи
  3. уровень таблицы БД
  4. уровень одиночной БД
  5. уровень множества БД

1. Уровень ячейки таблицы. К ошибкам в ячейке БД можно отнести:

· орфографические ошибки (опечатки) при вводе

· отсутствие данных (незаполненные ячейки, содержащие значение NULL)

· фиктивные значения – введенные оператором, но не имеющие смысла (например, почтовый индекс 99999, возраст клиента 999 лет и другие)

· логически неверные значения (например, в поле «город» находится значение «Россия»)

· закодированные значения – сокращенная запись или кодировка реальных данных для уменьшения занимаемого места

· составные значения – содержащие несколько логических данных в одной ячейке таблицы. Это возможно для строгого или текстового форматов. Кроме того, может отсутствовать формат записи в такие поля.

2. Уровень записи. На этом уровне возникает проблемы противоречивости значений в разных полях записи, описывающей один объект. Например, «возраст»=22, «дата рождения»=12.12.86.

3. Уровень таблицы БД. Это проблемы, связанные с несоответствием информации, хранящейся в таблице и относящейся к разным объектам. Это может быть:

  • нарушение уникальности – значения, соответствующие уникальным атрибутам разных объектов являются одинаковыми
  • отсутствие стандартов на формат записи – из-за этого может быть дублирование данных или их противоречивость.

4. Уровень одиночной БД. Проблемы нарушения целостности БД.

5. Уровень множества БД. Проблемы неоднородности структур БД и хранящейся в них информации:

  • различие структур: различие наименований полей, типов, размеров
  • в разных БД есть одинаковые наименования разных атрибутов
  • одинаковые данные представлены по-разному
  • разная классификация элементов

Не все проблемы могут быть устранены при очистке. Кроме того, данные, достоверность которых не влияет на процесс принятия решений, могут остаться неочищенными.

Этапы очистки:

1. выявление проблем в данных

2. определение правил очистки

3. тестирование правил очистки

4. непосредственная очистка

1. Выявление проблем в данных. Анализ данных производиться 2 методами: профайлинг и Data Mining.

Профайлинг – грубый анализ отдельных атрибутов данных (тип, длина, спектр значений, дискретные значения и их частота, уникальность, наличие NULL-значений).

Data Mining – выполняет группировку, обобщения, поиск ассоциаций, последовательностей, т.е. помогает найти специфические модели в больших наборах данных.

2. Определение правил очистки данных. Сначала устраняются проблемы отдельных источников данных. Потом выполняется интеграция данных и устранение проблем множественности источников (на этом этапе должна быть выработаны правила, часть представлена ПО очистки).

3. Тестирование правил. Правила должны оцениваться на копиях данных. Этапы определения правил, и их тестирование могут выполняться итерационно.

4. Непосредственная очистка данных. Преобразования выполняются в два приема в соответствии с определенными ранее правилами. Сначала – проблемы, связанные с отдельными источниками, а затем – с многоженствами БД.

5. Замена загрязненных данных очищенными. Данные ХД имеются в подсистемах анализа данных. От вида анализа зависит реализация структур.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: