Хранилище данных (data warehouse) - это автоматизированная информационно-технологическая система, которая собирает данные из существующих баз и внешних источников, формирует, хранит и эксплуатирует информацию как единую. Оно обеспечивает инструментарий для преобразования больших объемов детализированных данных в форму, которая удобна для стратегического планирования и реорганизации бизнеса и необходима специалисту, ответственному за принятие решений. При этом происходит слияние из разных источников различных сведений в требуемую предметно-ориентированную форму с использованием различных методов анализа.
Особенность новой технологии в том, что она предлагает среду накопления данных, которая не только надежна, но по сравнению с распределенными СУБД и оптимальна в отношении доступа к данным и манипулирования ими.
Хранилище информации предназначено для хранения, оперативного получения и анализа интегрированной информации по всем видам деятельности организации.
Данные в таком хранилище характеризуются следующими свойствами:
|
|
• предметная ориентация — данные организованы согласно предмету, а не приложению (в соответствии со способом их применения);
• интегрированность — данные согласуются с определенной системой наименований, хотя могут принадлежать различным источникам и их формы представления могут не совпадать;
• упорядоченность во времени — данные согласуются во времени для использования в сравнениях, трендах и прогнозах;
• неизменяемость и целостность — данные не обновляются и не изменяются, а только перезагружаются и считываются, поддерживая концепцию «одного правдивого источника».
• большой объем и сложные взаимосвязи данных.
К основным категориям данных, которые располагаются в хранилище, относятся:
· метаданные, описывающие способы извлечения информации из различных источников, методы их преобразования из различных структур и форматов и доставки в хранилище;
· фактические данные (архивы), отражающие состояние предметной области и конкретные моменты времени;
· суммарные данные, полученные на основе проведенных аналитических расчетов.
В информационных хранилищах используются статистические технологии, генерирующие информацию об информации; процедуры суммирования; методы обработки электронных документов, аудио-, видеоинформации, графов и географических карт.
Для уменьшения размера информационного хранилища до минимума при сохранении максимального количества информации применяются эффективные методы сжатия данных.
Для преобразования данных из хранилища в предметно-ориентированную форму требуются языки запросов нового поколения. Руководителям организации данные доступны посредством SQL-запросов, инструментов создания интерактивных отчетов на экране, более развитых систем поддержки принятия решений, многомерного просмотра данных посредством гипертекстовой технологии.
|
|
Для хранения данных обычно используются выделенные серверы, или кластеры серверов (группа накопителей, видеоустройств с общим контроллером).
Создание информационного хранилища данных требует решения ряда организационных вопросов, а также удовлетворения следующих требований к аппаратному и программному обеспечению.
Скорость загрузки. В хранилищах необходимо обеспечить периодическую загрузку новых порций данных, укладывающихся в достаточно узкий временной интервал. Требуемая производительность процесса загрузки не должна накладывать ограничения на размер хранилища.
Технология загрузки. Загрузка новых данных в хранилище включает преобразование данных, фильтрацию, переформатирование, проверку целостности, организацию физического хранения, индексирование и обновление метаданных. Это дает возможность объединить разнородную информацию из пакетов, применяемых в структурных подразделениях организации.
Управление качеством данных. В хранилище должна быть обеспечена локальная и глобальная согласованность данных. Мера качества построенного хранилища - объективность исходных данных и степень разнообразия возможных запросов.
Поддержка различных видов данных. В хранилище могут накапливаться данные не только стандартных типов, но и более сложных, таких, как текст, изображения, а также уникальных типов, определяемых разработчиками.
Скорость обработки запросов. Сложные запросы, важные для принятия ответственных решений, должны обрабатываться за секунды или минуты. Скорость обработки запроса должна зависеть от его важности, а не от объема БД.
Масштабируемость. Хранилище организации может достигнуть нескольких сотен гигабайт. СУБД не должна иметь никаких архитектурных ограничений и должна поддерживать модульную и параллельную обработку, сохранять работоспособность в случае локальных аварий и иметь средства восстановления.
Обслуживание большого числа пользователей. Доступ к хранилищу данных не ограничивается узким кругом специалистов организации. Сервер БД должен поддерживать сотни пользователей без снижения скорости обработки запросов.
Сети хранилищ данных. Сервер должен содержать инструменты, координирующие перемещение данных - между хранилищем организации, информационными системами банков, ГНИ и т. п. Пользователи должны иметь возможность обращаться к нескольким хранилищам с одной клиентской рабочей станции.
Администрирование. СУБД должна обеспечить контроль за приближением к ресурсным ограничениям, сообщать о затратах ресурсов и позволять устанавливать приоритеты для различных категорий пользователей или операций, а кроме того, уметь осуществлять трассировку и настройку системы на максимальную производительность. Качество построенного хранилища определяется удобством доступа к нему для конечного пользователя.
Интегрированные средства многомерного анализа. Для обеспечения высокопроизводительной аналитической обработки необходимы средства многомерных представлений, инструменты, поддерживающие удобные функции создания предварительно вычисление суммарных показателей и автоматизирующих генерацию таких предварительно вычисленных агрегированных величин.
Средства формирования запросов. Пользователь должен иметь возможность проведения аналитических расчетов, последовательного и сравнительного анализа, а также доступ к детальной и агрегированной информации.
|
|
Примером информационного хранилища может служить Oracle VLM, разработанная фирмами Oracle и Digital. Платформой является Digital Unix для 64-разрядной архитектуры Digital AXP, преодолевшей на аппаратном уровне четырехгигабайтовый барьер адресного пространства оперативной памяти. Платформы Digital AlphaServer 8200 и AlphaServer 8400 уже сейчас позволяют адресоваться к оперативной памяти емкостью 14 Гбайт и планируется расширить эту границу за 50 Гбайт. Вторая базовая операционная система фирмы Digital Open - VMS 7.0.
В информационном хранилище Oracle VLM увеличился объем кэш-памяти (быстродействующей памяти) для обмена с сервером базы данных, что сократило время обращения к диску с миллисекунд до микросекунд. Например, «маленькая» база данных объемом 5 Гбай; целиком загружается в кэш-память. Поскольку кэш-память базы дан ных является частью системной области памяти SGA, Oracle VLM фактически снимает ограничения на ее размер и оперирует с большом системной областью памяти LSGA.
Увеличился максимальный размер обрабатываемого блока базы данных до 32 Кбайт. Обычно он равнялся 2 Кбайтам, а максимальный - 8 Кбайтам. Обрабатываемый блок базы данных содержит управляющую часть (заголовок) и собственно данные. Если данные (графика, аудио-, видеоданные, изображения) не помещаются в блок целиком, строится цепочка блоков.
Использование информационных хранилищ дает существенный выигрыш по производительности в системах принятия решений, в системах обработки большого числа транзакций с большим объемом обновления данных.
Активно развивающейся областью использования компьютеров является создание баз знаний (БЗ), и их применение в различных областях науки и техники.
База знании представляет собой семантическую модель, предназначенную для представления в ЭВМ знаний, накопленных человеком в определенной предметной области.
Основные функции базы знаний:
· создание, загрузка, актуализация, поддержание в достоверном состоянии знаний;
· расширение, включение новых знаний;
· обработка, формирование знаний, соответствующих текущей ситуации.
|
|
Для выполнения указанных функций разрабатываются соответствующие программные средства. Совокупность этих программных средств и баз знаний принято называть искусственным интеллектом.
Искусственный интеллект в настоящее время находит применение в таких областях, как планирование и оперативное управление производством, выработка оптимальной стратегии поведения в соответствии со сложившейся ситуацией, экспертные системы и т. д.
Наиболее перспективным представляется использование искусственного интеллекта для построения экспертных систем.
Экспертная система это компьютерные программы, формализующие процесс принятия решений человеком. Назначение экспертных систем — формирование и вывод рекомендаций в зависимости от текущей ситуации, которая описывается совокупностью сведений, данных, вводимых пользователем в диалоговом режиме. Требуемые при этом данные могут извлекаться из создаваемой для решения функциональных задач базы данных. Выдаваемые компьютером рекомендации должны соответствовать рекомендациям специалиста высокой квалификации. Поэтому в формировании БЗ должны принимать участие специалисты — менеджеры высокой квалификации.
В качестве элемента экспертной системы можно рассматривать и базу данных. В то же время БД является составной частью БнД и ИТ. Поэтому наряду с БЗ экспертная система должна рассматриваться как основная составляющая часть внутри машинного информационного обеспечения.
Экспертные системы, являющиеся в настоящее время наиболее распространенным классом систем искусственного интеллекта, обладают способностью рассмотреть большое число вариантов, чем это доступно человеку, при доскональном анализе ситуаций в той или иной предметной области и выдать «интеллектуальные» решения в сложных ситуациях, благодаря наличию в них баз знаний.
Поэтому в помощь менеджерам в условиях распределенной системы обработки данных предполагается создать ряд экспертных систем. Так, при разработке плана производства для уточнения номенклатуры планируемой к выпуску продукции целесообразно создать экспертные системы по оценке конъюнктуры рынка и оценке технического уровня продукции, связанные с довольно сложным анализом исходной информации.