Требования к физическим ХД.
Виртуальное ХД.
Данные не копируются в единое хранилище. Они извлекаются, преобразуются и интегрируются во время запроса в ОП. Это позволяет минимизировать объем памяти носителя (избежать избыточности), работать с текущими, детализированными данными.
Недостатки:
1. Данные в ОИД – нормализованы, поэтому при выполнении запроса приходится объединять много таблиц. Отсюда – большое время выполнения запроса.
2. На один и тот же аналитический запрос может быть получено несколько вариантов ответа. Т.к. ОИД имеют различные форматы и кодировку данных, несинхронизированы моменты обновления данных.
3. Главный недостаток – невозможность получения данных за долгий период времени.
- Интеграция данных из разнородных источников в распределенной среде.
- Хранение и обработка очень больших объемов информации.
- Наличие многоуровневых справочников метаданных.
- Повышенные требования к безопасности.
Данные в ХД:
- детальные
- агрегированные
- метаданные
| |||
|
|
поток обобщений (агрегирование + сохранение в ХД)
обратный поток
(очищенные данные)
выходной поток
(копируется из OLTP) выходной поток (в OLAP и Data Mining)
поток метаданных архивный поток
|
|
Поток метаданных – поток информации об объектах предметной области.
В процессе работы менее нужные данные можно помещать в архив (более медленный доступ к устройствам).
Детальные данные разделяются на измерения – наборы данных, описывающие события (города, товары, люди) и факты – сущность события (количество проданного товара).
Агрегированные получают суммированием детальных числовых данных по определенным измерениям. В зависимости от возможности агрегировать различают:
1. аддитивные – числовые фактические данные, которые могут быть просуммированы по всем измерениям
2. полуаддитивные - числовые фактические данные, которые могут быть просуммированы по некоторым измерениям
3. неаддитивные – не могут быть просуммированы
Агрегированные данные редко увеличивают избыточность и размер ХД. Поэтому те данные, к которым обращаются редко, могут храниться не агрегированными, тогда над ними будут производиться вычисления в процессе выполнения запроса.
Информация о содержащихся в ХД данных – это метаданные (что – описание объектов; кто – описание пользователей; где – место хранения; когда – описание времени; почему – причины).
Они хранятся в репозитории с удобным пользовательским интерфейсом.
Самый большой поток – входной. Данные очищаются и обогащаются новыми атрибутами (может быть объединение с внешними данными – текстовые файлы, Е-мэйл, электронные таблицы).
|
|
60% затрат при разработке ХД связаны с переносом данных. Процесс переноса включает в себя:
· извлечение
· преобразование
· загрузку
Такой процесс называется ETL-процессом (E-extaction, T-transformation, L-loadiny). Его выполняют ETL-системы.