Репозиторий представляет собой описание структуры информационного хранилища: состава показателей, иерархий агрегации измерении, форматов данных, используемых функций, физического размещения на сервере, прав доступа пользователей, частоты обновления.
Важнейшей функцией репозитория является представление схем отображения структуры данных файлов-источников на структуре данных ИХ, в соответствии с которой осуществляется периодическая загрузка MOLAP-хранилища или непосредственная реализация запросов «на лету» в ROLAP-хранилищах.
В репозитории задается также схема отображения структуры ИХ на схемах представлений данных пользователей или витринах данных. Через репозиторий осуществляется интерпретация запросов к ИХ на проведение оперативного анализа данных.
Отображение данных между источниками данных и ИХ, ИХ и представлением данных осуществляется либо через механизм межуровневого взаимодействия, либо через процедуры преобразования данных.
Подсистема преобразования данных (загрузки хранилища)
|
|
Подсистема загрузки ИХ создается только для MOLAP-систем. Для ROLAP-систем в процессе выполнения запросов осуществляется преобразование данных из файлов-источников. В том и другом случае требуется выполнение следующих основных функций:
- сбор данных (Data Acquisition);
- очистка данных (Data Cleaning);
- агрегирование данных (Data Consolidation).
Сбор данных предполагает передачу данных из источников в ИХ в соответствии со схемой отображения, представленной в репозиторий.
В процессе очистки данных осуществляются проверка непротиворечивости (целостности), исключение дублирования данных., отбраковка шумовых (случайных) данных, восстановление отсутствующих данных, приведение данных к единому формату.
В случае необходимости агрегирования данных осуществляется суммирование итогов по заданным в репозиторий признакам агрегации.