Требования к ХД и их организация

Виртуальное ХД

Основные свойства ХД

· Предметная ориентация. ХД объединяет информацию из разных ОИД (оперативных источников данных), т.е. информацию, отражающую разные точки зрения на эту предметную область. Хранятся только нужные для анализа данные.

· Интеграция – единый формат данных.

· Поддержка хронологии – хронология изменения показателей предметной области. Поэтому данные в ХД соответствуют последовательным интервалам времени.

· Неизменяемость – данные не удаляются (как устаревшие) и не модифицируются.

Данные не копируются в единое хранилище. Они извлекаются, преобразуются и интегрируются во время запроса в ОП. Это позволяет минимизировать объем памяти носителя (избежать избыточности), работать с текущими, детализированными данными.

Недостатки:

· Данные в ОИД – нормализованы, поэтому при выполнении запроса приходится объединять много таблиц. Отсюда – большое время выполнения запроса.

· На один и тот же аналитический запрос может быть получено несколько вариантов ответа. Т.к. ОИД имеют различные форматы и кодировку данных, а также не синхронизированные моменты обновления данных.

· Главный недостаток – невозможность получения данных за долгий период времени.

Требования:

· Интеграция данных из разнородных источников в распределенной среде.

· Хранение и обработка очень больших объемов информации.

· Наличие многоуровневых справочников метаданных.

· Повышенные требования к безопасности.

Данные в ХД:

· детальные

· агрегированные

· метаданные

В процессе работы менее нужные данные можно помещать в архив (более медленный доступ к устройствам).

Детальные данные разделяются на измерения – наборы данных, описывающие события (города, товары, люди) и факты – сущность события (количество проданного товара).

Агрегированные получают суммированием детальных числовых данных по определенным измерениям. В зависимости от возможности агрегировать различают:

· аддитивные – числовые фактические данные, которые могут быть просуммированы по всем измерениям

· полуаддитивные - числовые фактические данные, которые могут быть просуммированы по некоторым измерениям

· неаддитивные – не могут быть просуммированы

Агрегированные данные редко увеличивают избыточность и размер ХД. Поэтому те данные, к которым обращаются редко, могут храниться не агрегированными, тогда над ними будут производиться вычисления в процессе выполнения запроса.

Информация о содержащихся в ХД данных – это метаданные (что – описание объектов; кто – описание пользователей; где – место хранения; когда – описание времени; почему – причины). Они хранятся в репозитории с удобным пользовательским интерфейсом. Поток метаданных – поток информации об объектах предметной области.

Самый большой поток – входной. Данные очищаются и обогащаются новыми атрибутами (может быть объединение с внешними данными – текстовые файлы, Е-мэйл, электронные таблицы).

60% затрат при разработке ХД связаны с переносом данных. Процесс переноса включает в себя:

· извлечение

· преобразование

· загрузку

Такой процесс называется ETL-процессом (E - extraction, T - transformation, L – loading). Его выполняют ETL-системы.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: