Хранилища данных и технологии интерактивной аналитической обработки данных (OLAP, MOLAP, ROLAP)

В основе концепции OLAP лежит принцип многомерного представления данных. В большом числе публикаций аббревиатурой OLAP обозначается не только многомерный взгляд на данные, но и хранение самих данных в многомерной БД. Вообще говоря, это неверно, так как "Реляционные БД были, есть и будут наиболее подходящей технологией для хранения корпоративных данных. Необходимость существует не в новой технологии БД, а, скорее, в средствах анализа, дополняющих функции существующих СУБД и достаточно гибких, чтобы предусмотреть и автоматизировать разные виды интеллектуального анализа, присущие OLAP". Такая путаница приводит к противопоставлениям наподобие "OLAP или ROLAP", что не совсем корректно, поскольку ROLAP (реляционный OLAP) на концептуальном уровне поддерживает всю определенную термином OLAP функциональность. Более предпочтительным кажется использование для OLAP на основе многомерных СУБД специального термина MOLAP.

По Кодду, многомерное концептуальное представление – это множественная перспектива, состоящая из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям определяется как многомерный анализ. Каждое измерение включает направления консолидации данных, состоящие из серии последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению. Так, измерение Исполнитель может определяться направлением консолидации, состоящим из уровней обобщения "предприятие - подразделение - отдел - служащий". Измерение Время может даже включать два направления консолидации - "год - квартал - месяц - день" и "неделя - день", поскольку счет времени по месяцам и по неделям несовместим. В этом случае становится возможным произвольный выбор желаемого уровня детализации информации по каждому из измерений. Операция спуска (drilling down) соответствует движению от высших ступеней консолидации к низшим; напротив, операция подъема (rolling up) означает движение от низших уровней к высшим, что представлено на рисунке.

Кодд определил 12 правил, которым должен удовлетворять программный продукт класса OLAP. Данные правила представлены в таблице 6.

Таблица 6 – Правила оценки программных продуктов класса OLAP

Правила оценки	Детализация
1	2
Многомерное концептуальное представление данных	Концептуальное представление модели данных в продукте OLAP должно быть многомерным по своей природе, то есть позволять аналитикам выполнять интуитивные операции "анализа вдоль и поперек", вращения и размещения направлений консолидации.
Прозрачность	Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда берутся.
Доступность	Аналитик должен иметь возможность выполнять анализ в рамках общей концептуальной схемы, но при этом данные могут оставаться под управлением оставшихся от старого наследства СУБД, будучи при этом привязанными к общей аналитической модели. То есть инструментарий OLAP должен накладывать свою логическую схему на физические массивы данных, выполняя все преобразования, требующиеся для обеспечения единого, согласованного и целостного взгляда пользователя на информацию.
Устойчивая производительность	С увеличением числа измерений и размеров базы данных аналитики не должны столкнуться с каким бы то ни было уменьшением производительности. Устойчивая производительность необходима для поддержания простоты использования и свободы от усложнений, которые требуются для доведения OLAP до конечного пользователя.
Клиент - серверная архитектура	Большая часть данных, требующих оперативной аналитической обработки, хранится в мэйнфреймовых системах, а извлекается с персональных компьютеров. Поэтому одним из требований является способность продуктов OLAP работать в среде клиент-сервер. Главной идеей здесь является то, что серверный компонент инструмента OLAP должен быть достаточно интеллектуальным и обладать способностью строить общую

Продолжение таблицы 6

1	2
	концептуальную схему на основе обобщения и консолидации различных логических и физических схем корпоративных баз данных для обеспечения эффекта прозрачности.
Равноправие измерений	Все измерения данных должны быть равноправны. Дополнительные характеристики могут быть предоставлены отдельным измерениям, но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению.
Динамическая обработка разреженных матриц	Инструмент OLAP должен обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное число измерений и различную разреженность данных.
Поддержка многопользовательского режима	Зачастую несколько аналитиков имеют необходимость работать одновременно с одной аналитической моделью или создавать различные модели на основе одних корпоративных данных. Инструмент OLAP должен предоставлять им конкурентный доступ, обеспечивать целостность и защиту данных.
Неограниченная поддержка кроссмерных операций	Вычисления и манипуляция данными по любому числу измерений не должны запрещать или ограничивать любые отношения между ячейками данных. Преобразования, требующие произвольного определения, должны задаваться на функционально полном формульном языке.
Интуитивное манипулирование данными	Переориентация направлений консолидации, детализация данных в колонках и строках, агрегация и другие манипуляции, свойственные структуре иерархии направлений консолидации, должны выполняться в максимально удобном, естественном и комфортном пользовательском интерфейсе.
Гибкий механизм генерации отчетов	Должны поддерживаться различные способы визуализации данных, то есть отчеты должны представляться в любой возможной ориентации.
Неограниченное количество измерений и уровней агрегации	Настоятельно рекомендуется допущение в каждом серьезном OLAP инструменте как минимум пятнадцати, а лучше двадцати, измерений в аналитической модели. Более того, каждое из этих измерений должно допускать практически неограниченное количество определенных пользователем уровней агрегации по любому направлению консолидации.

Набор этих требований, послуживших фактическим определением OLAP, следует рассматривать как рекомендательный, а конкретные продукты оценивать по степени приближения к идеально полному соответствию всем требованиям.

В настоящее время на рынке присутствует большое количество продуктов, которые в той или иной степени обеспечивают функциональность OLAP. Около 30 наиболее известных перечислены в списке обзорного Web-сервера http://www.olapreport.com/. Обеспечивая многомерное концептуальное представление со стороны пользовательского интерфейса к исходной базе данных, все продукты OLAP делятся на три класса по типу исходной БД.

1. Самые первые системы оперативной аналитической обработки (например, Essbase компании Arbor Software, Oracle Express Server компании Oracle) относились к классу MOLAP, то есть могли работать только со своими собственными многомерными базами данных. Они основываются на патентованных технологиях для многомерных СУБД и являются наиболее дорогими. Эти системы обеспечивают полный цикл OLAP-обработки. Они либо включают в себя, помимо серверного компонента, собственный интегрированный клиентский интерфейс, либо используют для связи с пользователем внешние программы работы с электронными таблицами. Для обслуживания таких систем требуется специальный штат сотрудников, занимающихся установкой, сопровождением системы, формированием представлений данных для конечных пользователей.

2. Системы оперативной аналитической обработки реляционных данных (ROLAP) позволяют представлять данные, хранимые в реляционной базе, в многомерной форме, обеспечивая преобразование информации в многомерную модель через промежуточный слой метаданных. К этому классу относятся DSS Suite компании MicroStrategy, MetaCube компании Informix, DecisionSuite компании Information Advantage и другие. Программный комплекс ИнфоВизор, разработанный в России, в Ивановском государственном энергетическом университете, также является системой этого класса. ROLAP-системы хорошо приспособлены для работы с крупными хранилищами. Подобно системам MOLAP, они требуют значительных затрат на обслуживание специалистами по информационным технологиям и предусматривают многопользовательский режим работы.

3. Наконец, гибридные системы (Hybrid OLAP, HOLAP) разработаны с целью совмещения достоинств и минимизации недостатков, присущих предыдущим классам. К этому классу относится Media/MR компании Speedware. По утверждению разработчиков, он объединяет аналитическую гибкость и скорость ответа MOLAP с постоянным доступом к реальным данным, свойственным ROLAP.

Помимо перечисленных средств существует еще один класс - инструменты генерации запросов и отчетов для настольных ПК, дополненные функциями OLAP или интегрированные с внешними средствами, выполняющими такие функции. Эти хорошо развитые системы осуществляют выборку данных из исходных источников, преобразуют их и помещают в динамическую многомерную БД, функционирующую на клиентской станции конечного пользователя. Основными представителями этого класса являются BusinessObjects одноименной компании, BrioQuery компании Brio Technology [7] и PowerPlay компании Cognos.

Многомерный OLAP (MOLAP). В специализированных СУБД, основанных на многомерном представлении данных, данные организованы не в форме реляционных таблиц, а в виде упорядоченных многомерных массивов:

- гиперкубов (все хранимые в БД ячейки должны иметь одинаковую мерность, то есть находиться в максимально полном базисе измерений) или

- поликубов (каждая переменная хранится с собственным набором измерений, и все связанные с этим сложности обработки перекладываются на внутренние механизмы системы).

Использование многомерных БД в системах оперативной аналитической обработки имеет достоинства и ограничения, которые представлены в таблице 7.

Таблица 7 – Достоинства и ограничения использования многомерных БД в системах оперативной аналитической обработки

Достоинства	Ограничения
В случае использования многомерных СУБД поиск и выборка данных осуществляется значительно быстрее, чем при многомерном концептуальном взгляде на реляционную базу данных, так как многомерная база данных денормализована, содержит заранее агрегированные показатели и обеспечивает оптимизированный доступ к запрашиваемым ячейкам.	Многомерные СУБД не позволяют работать с большими базами данных. К тому же за счет денормализации и предварительно выполненной агрегации объем данных в многомерной базе, как правило, соответствует в 2.5-100 раз меньшему объему исходных детализированных данных.
1. Многомерные СУБД легко справляются с задачами включения в информационную модель разнообразных встроенных функций, тогда как объективно существующие ограничения языка SQL делают выполнение этих задач на основе реляционных СУБД достаточно сложным, а иногда и невозможным.	Многомерные СУБД по сравнению с реляционными очень неэффективно используют внешнюю память. В подавляющем большинстве случаев информационный гиперкуб является сильно разреженным, а поскольку данные хранятся в упорядоченном виде, неопределенные значения удаётся удалить только за счет выбора оптимального порядка сортировки, позволяющего организовать данные в максимально большие непрерывные группы. Но даже в этом случае проблема решается только частично. Кроме того, оптимальный с точки зрения хранения разреженных данных порядок сортировки скорее всего не будет совпадать с порядком, который чаще всего используется в запросах. Поэтому в реальных системах приходится искать компромисс между быстродействием и избыточностью дискового пространства, занятого базой данных.

Следовательно, использование многомерных СУБД оправдано только при следующих условиях.

— Объем исходных данных для анализа не слишком велик (не более нескольких гигабайт), то есть уровень агрегации данных достаточно высок.

— Набор информационных измерений стабилен (поскольку любое изменение в их структуре почти всегда требует полной перестройки гиперкуба).

— Время ответа системы на нерегламентированные запросы является наиболее критичным параметром.

— Требуется широкое использование сложных встроенных функций для выполнения кроссмерных вычислений над ячейками гиперкуба, в том числе возможность написания пользовательских функций.

Реляционный OLAP (ROLAP). Непосредственное использование реляционных БД в системах оперативной аналитической обработки имеет следующие достоинства:

— В большинстве случаев корпоративные хранилища данных реализуются средствами реляционных СУБД, и инструменты ROLAP позволяют производить анализ непосредственно над ними. При этом размер хранилища не является таким критичным параметром, как в случае MOLAP.

— В случае переменной размерности задачи, когда изменения в структуру измерений приходится вносить достаточно часто, ROLAP системы с динамическим представлением размерности являются оптимальным решением, так как в них такие модификации не требуют физической реорганизации БД.

— Реляционные СУБД обеспечивают значительно более высокий уровень защиты данных и хорошие возможности разграничения прав доступа.

Главный недостаток ROLAP по сравнению с многомерными СУБД - меньшая производительность. Для обеспечения производительности, сравнимой с MOLAP, реляционные системы требуют тщательной проработки схемы базы данных и настройки индексов, то есть больших усилий со стороны администраторов БД. Только при использовании звездообразных схем производительность хорошо настроенных реляционных систем может быть приближена к производительности систем на основе многомерных баз данных.

Описанию схемы звезды и рекомендациям по ее применению полностью посвящены работы. Ее идея заключается в том, что имеются таблицы для каждого измерения, а все факты помещаются в одну таблицу, индексируемую множественным ключом, составленным из ключей отдельных измерений, что представлено на рисунке. Каждый луч схемы звезды задает, в терминологии Кодда, направление консолидации данных по соответствующему измерению.

Рисунок – Пример схемы «звезды»

В сложных задачах с многоуровневыми измерениями имеет смысл обратиться к расширениям схемы звезды - схеме созвездия и схеме снежинки. В этих случаях отдельные таблицы фактов создаются для возможных сочетаний уровней обобщения различных измерений, что представлено на рисунке. Это позволяет добиться лучшей производительности, но часто приводит к избыточности данных и к значительным усложнениям в структуре базы данных, в которой оказывается огромное количество таблиц фактов.

Рисунок – Пример схемы «снежинки» (фрагмент для одного элемента)

Увеличение числа таблиц фактов в базе данных может проистекать не только из множественности уровней различных измерений, но и из того обстоятельства, что в общем случае факты имеют разные множества измерений. При абстрагировании от отдельных измерений пользователь должен получать проекцию максимально полного гиперкуба, причем далеко не всегда значения показателей в ней должны являться результатом элементарного суммирования. Таким образом, при большом числе независимых измерений необходимо поддерживать множество таблиц фактов, соответствующих каждому возможному сочетанию выбранных в запросе измерений, что также приводит к неэкономному использованию внешней памяти, увеличению времени загрузки данных в БД схемы звезды из внешних источников и сложностям администрирования.

Частично решают эту проблему расширения языка SQL (операторы "GROUP BY CUBE", "GROUP BY ROLLUP" и "GROUP BY GROUPING SETS"); кроме того, авторы статей предлагают механизм поиска компромисса между избыточностью и быстродействием, рекомендуя создавать таблицы фактов не для всех возможных сочетаний измерений, а только для тех, значения ячеек которых не могут быть получены с помощью последующей агрегации более полных таблиц фактов, что представлено на рисунке.

Рисунок – Таблицы фактов для разных сочетаний измерений в запросе

В любом случае, если многомерная модель реализуется в виде реляционной базы данных, следует создавать длинные и "узкие" таблицы фактов и сравнительно небольшие и "широкие" таблицы измерений. Таблицы фактов содержат численные значения ячеек гиперкуба, а остальные таблицы определяют содержащий их многомерный базис измерений. Часть информации можно получать с помощью динамической агрегации данных, распределенных по незвездообразным нормализованным структурам, хотя при этом следует помнить, что включающие агрегацию запросы при высоконормализованной структуре БД могут выполняться довольно медленно.

Ориентация на представление многомерной информации с помощью звездообразных реляционных моделей позволяет избавиться от проблемы оптимизации хранения разреженных матриц, остро стоящей перед многомерными СУБД (где проблема разреженности решается специальным выбором схемы). Хотя для хранения каждой ячейки используется целая запись, которая помимо самих значений включает вторичные ключи - ссылки на таблицы измерений, несуществующие значения просто не включаются в таблицу фактов.

Экспертные системы в логистике. Под экспертными системами в логистике понимают специальные компьютерные программы, помогающие специалистам принимать решения, связанные с управлением материальными потоками. Экспертная система может аккумулировать знания и опыт нескольких специалистов-экспертов, работающих в разных областях.

Труд высококвалифицированных экспертов стоит дорого, однако, как правило, требуется не повседневно. Возможность получить совет экспертов по разным вопросам посредством обращения к компьютеру позволяет квалифицированно решать сложные задачи, повышает производительность труда персонала и в то же время не требует затрат на содержание штата высокооплачиваемых специалистов.

Применение экспертных систем позволяет:

— принимать быстрые и качественные решения в области управления материальными потоками;

— готовить опытных специалистов за относительно более короткий промежуток времени;

Обращение с экспертными программами за короткий промежуток времени формирует опытного специалиста. В то же время, задача повышения обучающих возможностей экспертных систем является сегодня актуальной, так как большинство программ не объясняют пользователю причины рекомендуемых решений.

— сохранять «ноу - хау» компании, так как персонал, пользующийся системой, не может вынести за пределы компании опыт и знания, содержащиеся в экспертной системе;

— использовать опыт и знания высококвалифицированных специалистов на непрестижных, опасных, скучных и тому подобных рабочих местах.

К недостаткам экспертных систем следует отнести ограниченную возможность использования «здравого смысла». Логистические процессы включают множество операций с разнообразными грузами. Учесть все особенности в экспертной программе невозможно. Поэтому, чтобы не поставить коробку весом в сто килограммов на коробку весом в пять килограммов здравым смыслом, дополняющим знания экспертной системы, должен обладать пользователь.

Экспертные системы применяются на различных стадиях логистического процесса, облегчая решение проблем, требующих значительного опыта и затрат времени. Например, на складе, при принятии решения о пополнении запасов, когда менеджеру необходимо оценить большой объем разнообразной информации: ожидаемые цены в разрезе закупаемых товаров, тарифы на доставку, необходимость одновременного пополнения запасов по разным позициям ассортимента и т. д.

Использование здесь экспертных систем позволяет принимать не только правильные, но и быстрые решения, что зачастую не менее важно.

В качестве примера использования экспертных систем в складском хозяйстве приведем систему Inventory Management Assistant, IMA («помощник в складском менеджменте»), разработанную для логистического отдела Военно-воздушных сил США. Отдел обслуживает свыше 19000 самолетов по всему миру.

Складская система отдела содержит 916000 наименований запасных частей для самолетов. Цель создания IMA — помощь персоналу складов при решении задач, связанных с управлением запасами. Использование названной экспертной системы позволило на 8-10% повысить эффективность решения обычных проблем. Эффективность решения вопросов в сложных ситуациях возросла на 15 - 18%.

В России пока наибольше распространение получают экспертные системы по управлению централизованными складами, сервисному обслуживанию и ремонту техники.

ЭС склада соотносится с базами данных по товарам, контрагентам, возможностям склада, нормативам хранения и базой знаний по решениям специалистов о размещении товара, выполняемых технологических и кон-1рольных операциях, используемом оборудовании и порядке работы. Она помогает решить задачи размещения товара, составления графика работы, предупреждает о наступлении точек заказа, истечении срока хранения товаров, оптимизируя трудоемкость, аккуратность, использование ресурсов, управление запасами

Технология экспертных систем будет эффективно функционировать если она поддерживается существованием корпоративных баз данных по товарам (прежде всего), поставщикам, клиентам, использованием классификации товаров и их штрихового кодирования, электронного обмена данными.

Следует сказать несколько слов и о специфике разработки экспертных систем. Процесс их внедрения итеративен: из начального описания проблемы разрабатывается система, строится прототип, анализ работы которого выявляет новые аспекты проблемы, добавляет новые знания изменяя систему Необходимой практикой при внедрении ЭС является пробное функционирование на моделируемом материальном и информационных потоках, тестовых участках. Для принятия идеологии ЭС в крупных компаниях целесообразно использование политики "малых успехов".

Зарубежная статистика показывает, что инвестиции на одну ЭС в логистике окупаются в среднем за 1,5 -2 года, и составляют от $25 000 до $100000.

Итак, основными результатами применения ЭС являются устранение перегрузки данными ЛПР, снижение отрицательного эффекта некачественной информации, повышение качества принимаемых решений, увеличение надежность систем контроля и управления. Кроме того сохраняется опыт, иногда уникальный, и знания профессионалов - экспертов.

ЭС потенциально содержат возможности по предсказанию сценариев развигия, самообучению и преобразованию информации в знания.

ЭС косвенно влияют на качество и количество производимой, (распределяемой, перевозимой) продукции, поэтому экономический эффект от использования ЭС можно оценить только после ее внедрения установления обратной связи между ЭС и пользователем.

[1] С 2000 г. в Австрии, а с 2002 г. в Нидерландах и в Германии организуется спутниковый контроль за движением автомобилей и вводится дистанционная форма расчетов за проезд без остановки транспорта с применением СВЧ и инфракрасных систем считывания информации.

[2] Сегодня уже более 30 финских транспортных компаний имеют право пользоваться «зеленым» таможенным коридором, т.е. без таможенного досмотра, на границе Финляндия – Россия (в рамках программы TEDIM).

[3] В 2000 г. В США был принят закон об электронных подписях и печатях, открывающий широкие возможности для массового применения электронных технологий в бизнесе.

4 5 6 7 8 9 10

Методы и средства гигиенического обучения и воспитания населения

Анализ дебиторской задолженности

Недостатки речного транспорта

ПРОИЗВОДИТЕЛЬНОСТЬ ТРУДА

Индексы переменного и постоянного состава, индекс структурных сдвигов

Объяснительно-иллюстративный метод обучения

Самый сильный аргумент, почему эволюция человека не могла быть

Великое честолюбие – это страсть великой натуры. Человек, неделенный им, может совершить либо самые благородные деяния, либо самые подлые; всё зависит от принципов, которыми он руководствуется. © Наполеон ==> читать все изречения...

8235

8009