А.Н.Андреев, Рязанский государственный радиотехнический университет
Целью работы является классификация расширений OLAP-систем вида xOLAP (eXtensible OLAP). Данный подход к классификации подчеркивает, с одной стороны, единство OLAP-систем на основе извлечения данных из многомерных построений, с другой стороны, расширяющийся спектр их разнообразных функциональных особенностей [1]. Данная классификация позволит ориентироваться в существующих моделях OLAP, а также помогать при выборе OLAP-системы.
Прежде чем переходить к классификации OLAP-систем, рассмотрим само понятие OLAP, а также обсудим, какие системы попадают в этот класс.
Термин OLAP введён в 1993 г. Э. Коддом (Edgar Codd) [2]. Цель OLAP-систем – облегчение решения задач анализа больших объемов данных. Кодд сформулировал 12 признаков OLAP-данных. В дальнейшем Найджел Пендс (Nigel Pendse) переформулировал 12 правил Кодда в более ёмком тесте FASMI (Fast Shared Multidimensional Information) – Быстрый анализ разделяемой многомерной информации [3]. Большинство существующих OLAP-систем удовлетворяет всем этим признакам.
Рассмотрим подробнее различные модели OLAP, относящиеся к xOLAP, а также отметим их некоторых представителей. Оговоримся, что некоторые ранее известные поставщики продуктов с OLAP-функциональностью на данный момент не существуют, либо поглощены другими компаниями, либо изменили наименование своего продукта. Включение таких продуктов в рассматриваемый материал отражает вехи истории развития систем класса OLAP.
Когда человек, принимающий решение, запрашивает значение меры для определенного набора элементов измерения, ROLAP-система проверяет, указывают ли эти элементы на агрегат или на значение самого нижнего уровня иерархии (листовое значение). Если указан агрегат, то значение выбирается из реляционной таблицы. Если выбрано листовое значение, то значение берется из витрины данных.
Благодаря реляционным таблицам, архитектура ROLAP позволяет хранить большие объемы данных. Поскольку в архитектуре ROLAP листовые значения берутся непосредственно из витрины данных, то возвращаемые ROLAP-системой листовые значения всегда будут соответствовать актуальному на данный момент положению дел. Другими словами, ROLAP-системы лишены запаздывания в части листовых данных.
Достоинства этого класса систем:
Недостатки:
Представители: Пионером ROLAP был продукт Metaphor компании Metaphor Computer Systems, появившийся в 80-х годах. Также выделим DSS Suite фирмы MicroStrategy, MetaCube фирмы IBM Informix, Platinum Beacon от Platinum, Brio, Business Objects, DecisionSuite компании Information Advantage. На современном этапе развития ROLAP отметим Mondrian, JasperAnalysis, MicroStrategy 9, Tableau Software, Cognos Powerplay, Microsoft Analysis Services.
Для загрузки MOLAP-системы требуется дополнительное время на копирование в многомерную базу всех листовых данных. Поэтому возникают ситуации, когда листовые данные MOLAP-системы оказываются рассинхронизированными с данными в витрине данных. Таким образом, MOLAP-системы вносят запаздывание в данные нижнего уровня иерархии.
Архитектура MOLAP требует большего объема дискового пространства из-за хранения в многомерной базе копий листовых данных. Но, несмотря на это, объем дополнительного пространства обычно не слишком велик, поскольку данные в MOLAP хранятся исключительно эффективно. Достоинства MOLAP-систем:
Недостатки:
Представители: Cognos Powerplay, Oracle OLAP Option, Oracle Essbase, Microsoft Analysis Services, TM1, Palo, IdeaSoft O3.
В HOLAP-системах структура куба и предварительно обработанные агрегаты хранятся в многомерной базе данных. Это позволяет обеспечить быстрое извлечение агрегатов из структур MOLAP. Значения нижнего уровня иерархии в HOLAP остаются в реляционной витрине данных, которая служит источником данных для куба.
HOLAP не требует копирования листовых данных из витрины, хотя это и ведет к увеличению времени доступа при обращении к листовым данным. Данные в витрине доступны аналитику сразу после обновления. Таким образом, HOLAP-системы не вносят запаздывания в работу с данными нижнего уровня иерархии. По сути, HOLAP жертвует скоростью доступа к листовым данным ради устранения запаздывания при работе с ними и ускорения загрузки данных. В связи с этим HOLAP проигрывает по скорости MOLAP.
К достоинствам подхода можно отнести комбинирование технологии ROLAP для разреженных данных и MOLAP для плотных областей, а к недостаткам – необходимость поддерживания MOLAP и ROLAP.
Представители: Microsoft Analysis Services, MicroStrategy, IBM DB2 OLAP Server, Sagent Holos.
Основой DROLAP системы является использование плотных областей (dense regions) в кубах данных. Для этого используется алгоритм EDEM (Efficient Dense Region Mining). Также подход DROLAP лучше управляет не только дисковым пространством, но и кластеризованными многомерными данными [10].
Представители: Модель DROLAP создавалась в рамках исследовательского проекта; коммерческая реализация отсутствует.
RTOLAP отличается от ROLAP, в основном, тем, что для хранения агрегатов не создаются дополнительные реляционные таблицы, а агрегаты рассчитываются в момент запроса.
Только явно введенные данные сохраняются в многомерном кубе. При выполнении запроса пользователя сервер выбирает данные либо рассчитывает значения. Все вычисления выполняются по требованию, а все данные находятся в основной памяти [1].
Достоинства подхода RTOLAP:
Недостатки:
Представители: Applix TM1, Palo, Acinta.
В подходе In-memory OLAP используются преимущества основной памяти. Обеспечивается некоторая промежуточная система баз данных, которая обрабатывает запросы. Эта промежуточная база данных хранится в памяти компьютера, что позволяет избежать задержек из-за обращений к диску [1].
Представители: In-memory ROLAP MicroStrategy 9. In-memory MOLAP Cognos TM1. Также выделяют Palo, Tibco Spotfire, QlikView.
Достоинства подхода DOLAP:
Недостатки:
Представители: Cognos PowerPlay, Brio, Crystal Decisions, Hummingbird.
Представители: Приложение Comshare, которое дополняет продукт Comshare MPC функциональными возможностями OLAP.
При использовании таких систем значительно облегчается задача установки, конфигурирования и развертывания. Web-приложение выполняется на сервере, и поэтому на клиентской машине нужны только браузер и подключение к Intranet/Internet. Подобная стратегия развертывания особенно удобна для администраторов хранилищ данных, которым часто приходится работать с широким контингентом удаленных пользователей, что очень не просто при использовании традиционной клиент/серверной архитектуры [12].
К достоинствам подхода WOLAP можно отнести следующее:
Реализация решений WOLAP основывается на технологиях HTML, Java, ActiveX, а также их комбинациях.
Представители: MicroStrategy 7i, Business Objects WebIntelligence, Cognos PowerPlay Web Edition, Aperio от Influence Software.
Развитие прикладных информационных систем, появление новых типов данных заставляют поставщиков разрабатывать новые подходы к оперативной аналитической обработке данных. Рассмотрим тематические модели OLAP.
Представители: JMap Spatial OLAP, GeoMondrian.
Семантический OLAP нацелен на решение таких проблем. как семантическое управление для предотвращения «взрыва данных», преодоление «семантических разрывов OLAP» и т.д. Модель SeOLAP подходит для семантического управления данными, а также аналитической обработки данных Semantic Web (Семантический веб).
Представители: CubeView.
Рассматривая интерфейсы OLAP, вводят понятие Java OLAP или Java OLAP (JOLAP) API.
Такая классификация полезна пользователям, желающим получить представление о существующих моделях OLAP, а также о представителях той или иной модели.
1. Миронов А.А., Мордвинов В.А., Скуратов А.К. Семантико-энтропийное управление OLAP и модели интеграции xOLAP в SemanticNET (ONTONET). Информатизация образования и науки №2, 2009. С. 21-30.
2. Codd E.F., Codd S.B., Salley C.T. Providing OLAP (On-Line Analytical Processing) to user-analysts: An IT mandate. Technical report, 1993.
3. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. – СПб.: БХВ-Петербург, 2004. – 336 с.
4. Robert Wrembel, Christian Koncilia. Data warehouses and OLAP: concepts, architectures, and solutions. IRM Press, 2007. PP. 1-26.
5. Celko Joe. Analytics and OLAP in SQL. Morgan Kaufmann, 2006. 208 p.
6. Ларсон Б. Разработка бизнес-аналитики в Microsoft SQL Server 2005. – СПб.: Питер, 2008. – 684 с.
7. Кудрявцев Ю.А. OLAP технологии: обзор решаемых задач и исследований // Бизнес-информатика. – 2008. №1. – С. 66-70.
8. Adrienne H. Slaughter. OLAP. 2004. – P. 23.
9. Nigel Pendse. The OLAP Survey 6 – Summary. November 2006. – P. 23.
10. David Wai-Lok Cheung, Bo Zhou, Ben Kao, Kan Hu, Sau Dan Lee. DROLAP - A Dense-Region Based Approach to On-Line Analytical Processing. Lecture Notes in Computer Science 1677, Springer, 1999. PP. 761-770.
11. T.S. Jung, M.S. Ahn, W.S. Cho. An Efficient OLAP Query Processing Technique Using Measure Attribute Indexes. WISE 2004. PP. 218-228.
12. Rob Mattison. Web Warehousing and Knowledge Management. Mcgraw-Hill, 1999. – 576 p.
13. Sonia Rivest, Yvan Bedard, Pierre Marchand. Toward better support for spatial decision making: defining the characteristics of spatial on-line analytical processing (SOLAP). Geomatica, Vol. 55, No. 4, 2001. PP. 539-555.
14. S. Bimonte, A. Tchounikine, M. Miquel. Towards a Spatial Multidimensional Model. DOLAP, 2005. PP. 39-46.
15. Andreas S. Maniatis. The case for Mobile OLAP. EDBT Workshops, 2004. PP. 405-414.