2010 г.
Классификация OLAP-систем вида xOLAP
А.Н.Андреев, Рязанский государственный радиотехнический университет
Введение
На сегодняшний день разработано множество продуктов, реализующих технологию оперативной аналитической обработки данных OLAP (OnLine Analytical Processing). В свою очередь, существуют разнообразные модели OLAP, число которые с каждым годом увеличивается. Модели OLAP обретают свойства, изменяющие их особенности, достоинства и недостатки. Чтобы не запутаться в этом многообразии, модели OLAP необходимо классифицировать.
Целью работы является классификация расширений OLAP-систем вида xOLAP (eXtensible OLAP). Данный подход к классификации подчеркивает, с одной стороны, единство OLAP-систем на основе извлечения данных из многомерных построений, с другой стороны, расширяющийся спектр их разнообразных функциональных особенностей [1]. Данная классификация позволит ориентироваться в существующих моделях OLAP, а также помогать при выборе OLAP-системы.
Прежде чем переходить к классификации OLAP-систем, рассмотрим само понятие OLAP, а также обсудим, какие системы попадают в этот класс.
Термин OLAP введён в 1993 г. Э. Коддом (Edgar Codd) [2]. Цель OLAP-систем – облегчение решения задач анализа больших объемов данных. Кодд сформулировал 12 признаков OLAP-данных. В дальнейшем Найджел Пендс (Nigel Pendse) переформулировал 12 правил Кодда в более ёмком тесте FASMI (Fast Shared Multidimensional Information) – Быстрый анализ разделяемой многомерной информации [3]. Большинство существующих OLAP-систем удовлетворяет всем этим признакам.
Рассмотрим подробнее различные модели OLAP, относящиеся к xOLAP, а также отметим их некоторых представителей. Оговоримся, что некоторые ранее известные поставщики продуктов с OLAP-функциональностью на данный момент не существуют, либо поглощены другими компаниями, либо изменили наименование своего продукта. Включение таких продуктов в рассматриваемый материал отражает вехи истории развития систем класса OLAP.
ROLAP, Relational OLAP – реляционный OLAP
В реляционных OLAP-системах структура куба данных [4] хранится в реляционной базе данных. Меры самого нижнего уровня остаются в реляционной витрине данных, служащей источником данных для куба. Предварительно обработанные агрегаты также хранятся в реляционной таблице [3,5-9].
Когда человек, принимающий решение, запрашивает значение меры для определенного набора элементов измерения, ROLAP-система проверяет, указывают ли эти элементы на агрегат или на значение самого нижнего уровня иерархии (листовое значение). Если указан агрегат, то значение выбирается из реляционной таблицы. Если выбрано листовое значение, то значение берется из витрины данных.
Благодаря реляционным таблицам, архитектура ROLAP позволяет хранить большие объемы данных. Поскольку в архитектуре ROLAP листовые значения берутся непосредственно из витрины данных, то возвращаемые ROLAP-системой листовые значения всегда будут соответствовать актуальному на данный момент положению дел. Другими словами, ROLAP-системы лишены запаздывания в части листовых данных.
Достоинства этого класса систем:
-
возможность использования ROLAP с хранилищами данных и различными OLTP-системами;
-
возможность манипулирования большими объемами данных; объем данных могут ограничивать только лежащие в основе ROLAP системы реляционных баз данных, подход ROLAP сам по себе не ограничивает объем данных;
-
безопасность и администрирование обеспечивается реляционными СУБД.
Недостатки:
-
получение агрегатов и листовых данных происходит медленнее, чем, например, в MOLAP и HOLAP (см. ниже);
-
функциональность систем ограничивается возможностями SQL, так как аналитические запросы пользователя транслируются в SQL-операторы выборки;
-
сложно пересчитывать агрегированные значения при изменениях начальных данных;
-
сложно поддерживать таблицы агрегатов.
Представители: Пионером ROLAP был продукт Metaphor компании Metaphor Computer Systems, появившийся в 80-х годах. Также выделим DSS Suite фирмы MicroStrategy, MetaCube фирмы IBM Informix, Platinum Beacon от Platinum, Brio, Business Objects, DecisionSuite компании Information Advantage. На современном этапе развития ROLAP отметим Mondrian, JasperAnalysis, MicroStrategy 9, Tableau Software, Cognos Powerplay, Microsoft Analysis Services.
MOLAP, Multidimensional OLAP – многомерный OLAP
В многомерных OLAP-системах структура куба хранится в многомерной базе данных. В той же базе данных хранятся предварительно обработанные агрегаты и копии листовых значений. В связи с этим все запросы к данным удовлетворяются многомерной системой баз данных, что делает MOLAP-системы исключительно быстрыми [3,5-9].
Для загрузки MOLAP-системы требуется дополнительное время на копирование в многомерную базу всех листовых данных. Поэтому возникают ситуации, когда листовые данные MOLAP-системы оказываются рассинхронизированными с данными в витрине данных. Таким образом, MOLAP-системы вносят запаздывание в данные нижнего уровня иерархии.
Архитектура MOLAP требует большего объема дискового пространства из-за хранения в многомерной базе копий листовых данных. Но, несмотря на это, объем дополнительного пространства обычно не слишком велик, поскольку данные в MOLAP хранятся исключительно эффективно.
Достоинства MOLAP-систем:
-
все данные хранятся в многомерных структурах, что существенно повышает скорость обработки запросов;
-
доступны расширенные библиотеки для сложных функций оперативного анализа;
-
обработка разреженных данных выполняется лучше, чем в ROLAP.
Недостатки:
-
данные куба «оторваны» от базовой таблицы; необходимы специальные инструменты для формирования кубов и их пересчёта в случае изменения базовых значений;
-
сложно изменять измерения без повторной агрегации.
Представители: Cognos Powerplay, Oracle OLAP Option, Oracle Essbase, Microsoft Analysis Services, TM1, Palo, IdeaSoft O3.
HOLAP, Hybrid OLAP – гибридный OLAP
В гибридных OLAP сочетаются черты ROLAP и MOLAP, отсюда и название – гибридный. В моделях HOLAP используются преимущества и минимизируются недостатки обеих архитектур [3,5-8].
В HOLAP-системах структура куба и предварительно обработанные агрегаты хранятся в многомерной базе данных. Это позволяет обеспечить быстрое извлечение агрегатов из структур MOLAP. Значения нижнего уровня иерархии в HOLAP остаются в реляционной витрине данных, которая служит источником данных для куба.
HOLAP не требует копирования листовых данных из витрины, хотя это и ведет к увеличению времени доступа при обращении к листовым данным. Данные в витрине доступны аналитику сразу после обновления. Таким образом, HOLAP-системы не вносят запаздывания в работу с данными нижнего уровня иерархии. По сути, HOLAP жертвует скоростью доступа к листовым данным ради устранения запаздывания при работе с ними и ускорения загрузки данных. В связи с этим HOLAP проигрывает по скорости MOLAP.
К достоинствам подхода можно отнести комбинирование технологии ROLAP для разреженных данных и MOLAP для плотных областей, а к недостаткам – необходимость поддерживания MOLAP и ROLAP.
Представители: Microsoft Analysis Services, MicroStrategy, IBM DB2 OLAP Server, Sagent Holos.
DROLAP, A Dense-Region Based Approach to OLAP – OLAP, основанный на плотных областях
По утверждениям авторов данного подхода, DROLAP превосходит ROLAP и MOLAP в эффективности управления пространством и обработки запросов. DROLAP заимствует преимущества ROLAP и MOLAP и комбинирует их для поддержки высокой скорости исполнения запросов и эффективности использования памяти.
Основой DROLAP системы является использование плотных областей (dense regions) в кубах данных. Для этого используется алгоритм EDEM (Efficient Dense Region Mining). Также подход DROLAP лучше управляет не только дисковым пространством, но и кластеризованными многомерными данными [10].
Представители: Модель DROLAP создавалась в рамках исследовательского проекта; коммерческая реализация отсутствует.
OOLAP, Object-relational OLAP – объектно-реляционный OLAP
Данный подход к OLAP схож с ROLAP, но обладает своими особенностями. Например, OOLAP позволяет работать с объектными базами данных, а используемые в ROLAP связи между первичным и внешним ключами в OOLAP заменяются связями атрибут-домен [11].
RTOLAP, R-ROLAP или Real-time ROLAP – ROLAP реального времени
Иногда этот подход называют по-другому – Real-Time Analytical Processing или RAP.
RTOLAP отличается от ROLAP, в основном, тем, что для хранения агрегатов не создаются дополнительные реляционные таблицы, а агрегаты рассчитываются в момент запроса.
Только явно введенные данные сохраняются в многомерном кубе. При выполнении запроса пользователя сервер выбирает данные либо рассчитывает значения. Все вычисления выполняются по требованию, а все данные находятся в основной памяти [1].
Достоинства подхода RTOLAP:
-
не существует угрозы «взрыва» данных, так как в кубе не сохраняются предварительно вычисленные значения;
-
вычисления по требованию позволяют не перегружать основную память RAM.
Недостатки:
-
ограниченность хранения и обработки куба данных объемом основной памяти;
-
снижение скорости обработки из-за вычислений по требованию.
Представители: Applix TM1, Palo, Acinta.
In-memory OLAP
Данная модель OLAP представлена в виде In-memory ROLAP и In-memory MOLAP и практически не отличается от Real-time ROLAP.
В подходе In-memory OLAP используются преимущества основной памяти. Обеспечивается некоторая промежуточная система баз данных, которая обрабатывает запросы. Эта промежуточная база данных хранится в памяти компьютера, что позволяет избежать задержек из-за обращений к диску [1].
Представители: In-memory ROLAP MicroStrategy 9. In-memory MOLAP Cognos TM1. Также выделяют Palo, Tibco Spotfire, QlikView.
DOLAP, Desktop OLAP – настольный OLAP
DOLAP является одноуровневой технологией OLAP. В данной архитектуре OLAP можно скачать относительно небольшие кубы данных из центральной точки (витрины или хранилища данных) и выполнять многомерный анализ, отключившись от этого ресурса. В другом варианте пользователь может сам создать OLAP-куб, не подключаясь к серверу [3,6,8].
Достоинства подхода DOLAP:
-
дружественный (user friendly) подход для манипулирования данными в локальном режиме;
-
высокая скорость обработки запросов;
-
низкая стоимость;
-
удобный инструмент для пользователей, которые не могут постоянно поддерживать соединение с хранилищем данных;
-
наиболее простое развертывание продуктов из всех подходов к организации OLAP.
Недостатки:
-
ограниченная функциональность;
-
ограничение на объем данных.
Представители: Cognos PowerPlay, Brio, Crystal Decisions, Hummingbird.
Application OLAP – прикладной OLAP
Продуктами этой области в основном являются клиенты многомерных баз данных. Это может быть просто программа просмотра (viewer) или приложение, которое улучшает обслуживание пользователей [8].
Представители: Приложение Comshare, которое дополняет продукт Comshare MPC функциональными возможностями OLAP.
WOLAP, Web-based OLAP – OLAP ориентированный на Web
Архитектура WOLAP предполагает использование возможностей Web. WOLAP-системы выполняют аналитические функции, такие как агрегирование и детализация, обеспечивают высокую производительность в сочетании со всеми преимуществами, которые дает Web-приложение.
При использовании таких систем значительно облегчается задача установки, конфигурирования и развертывания. Web-приложение выполняется на сервере, и поэтому на клиентской машине нужны только браузер и подключение к Intranet/Internet. Подобная стратегия развертывания особенно удобна для администраторов хранилищ данных, которым часто приходится работать с широким контингентом удаленных пользователей, что очень не просто при использовании традиционной клиент/серверной архитектуры [12].
К достоинствам подхода WOLAP можно отнести следующее:
-
обучение OLAP сводится к минимуму за счет использования хорошо знакомых Internet-функций и методов навигации;
-
обеспечивавется поддержка OLAP, независимая от платформы;
-
развертывание программного обеспечения обходится крайне дешево.
Реализация решений WOLAP основывается на технологиях HTML, Java, ActiveX, а также их комбинациях.
Представители: MicroStrategy 7i, Business Objects WebIntelligence, Cognos PowerPlay Web Edition, Aperio от Influence Software.
Развитие прикладных информационных систем, появление новых типов данных заставляют поставщиков разрабатывать новые подходы к оперативной аналитической обработке данных. Рассмотрим тематические модели OLAP.
SOLAP, Spatial OLAP – пространственный OLAP
Пространственная аналитическая обработка предназначена для изучения пространственных данных. В этой области объединяются понятия из существенно различающихся сфер знаний географических информационных систем и OLAP. Модель SOLAP разработана для интерактивного и быстрого анализа больших объемов данных, хранящихся в пространственных базах данных [7,8,13,14].
Представители: JMap Spatial OLAP, GeoMondrian.
SeOLAP, Semantic OLAP – семантический OLAP
Модель SeOLAP ориентирована на семантические методы поиска и извлечения данных и знаний. Область SeOLAP пока разработана недостаточно, хотя в последние годы это направление явно привлекает внимание исследователей [1].
Семантический OLAP нацелен на решение таких проблем. как семантическое управление для предотвращения «взрыва данных», преодоление «семантических разрывов OLAP» и т.д.
Модель SeOLAP подходит для семантического управления данными, а также аналитической обработки данных Semantic Web (Семантический веб).
Mobile OLAP – OLAP для мобильных устройств
Функциональность модели Mobile OLAP рассматривается относительно беспроводных сетей или мобильных устройств. Реализации Mobile OLAP позволяют работать с OLAP-данными и приложениями удаленно через мобильные устройства [15].
Представители: CubeView.
Рассматривая интерфейсы OLAP, вводят понятие Java OLAP или Java OLAP (JOLAP) API.
JOLAP – Java OLAP
С одной стороны, JOLAP – спецификация, предназначенная для создания и поддержания OLAP данных и метаданных на корпоративной платформе Java [1,3]. С другой стороны, можно говорить о сервере JOLAP, например, Mondrian open source Java OLAP server 1.0.
Заключение
Актуальность OLAP-технологий обусловлена их практической значимостью для анализа больших объемов данных. В связи с этим имеется проблема выбора оптимальных схем хранения и обработки OLAP данных. Рассмотренная классификация моделей OLAP обеспечивает такое представление. Например, для анализа геопространственных данных пригодна модель Spatial OLAP, для мобильных пользователей – Mobile OLAP.
Такая классификация полезна пользователям, желающим получить представление о существующих моделях OLAP, а также о представителях той или иной модели.
Литература
1. Миронов А.А., Мордвинов В.А., Скуратов А.К. Семантико-энтропийное управление OLAP и модели интеграции xOLAP в SemanticNET (ONTONET). Информатизация образования и науки №2, 2009. С. 21-30.
2. Codd E.F., Codd S.B., Salley C.T. Providing OLAP (On-Line Analytical Processing) to user-analysts: An IT mandate. Technical report, 1993.
3. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. – СПб.: БХВ-Петербург, 2004. – 336 с.
4. Robert Wrembel, Christian Koncilia. Data warehouses and OLAP: concepts, architectures, and solutions. IRM Press, 2007. PP. 1-26.
5. Celko Joe. Analytics and OLAP in SQL. Morgan Kaufmann, 2006. 208 p.
6. Ларсон Б. Разработка бизнес-аналитики в Microsoft SQL Server 2005. – СПб.: Питер, 2008. – 684 с.
7. Кудрявцев Ю.А. OLAP технологии: обзор решаемых задач и исследований // Бизнес-информатика. – 2008. №1. – С. 66-70.
8. Adrienne H. Slaughter. OLAP. 2004. – P. 23.
9. Nigel Pendse. The OLAP Survey 6 – Summary. November 2006. – P. 23.
10. David Wai-Lok Cheung, Bo Zhou, Ben Kao, Kan Hu, Sau Dan Lee. DROLAP - A Dense-Region Based Approach to On-Line Analytical Processing. Lecture Notes in Computer Science 1677, Springer, 1999. PP. 761-770.
11. T.S. Jung, M.S. Ahn, W.S. Cho. An Efficient OLAP Query Processing Technique Using Measure Attribute Indexes. WISE 2004. PP. 218-228.
12. Rob Mattison. Web Warehousing and Knowledge Management. Mcgraw-Hill, 1999. – 576 p.
13. Sonia Rivest, Yvan Bedard, Pierre Marchand. Toward better support for spatial decision making: defining the characteristics of spatial on-line analytical processing (SOLAP). Geomatica, Vol. 55, No. 4, 2001. PP. 539-555.
14. S. Bimonte, A. Tchounikine, M. Miquel. Towards a Spatial Multidimensional Model. DOLAP, 2005. PP. 39-46.
15. Andreas S. Maniatis. The case for Mobile OLAP. EDBT Workshops, 2004. PP. 405-414.