2008-10-02
За последние 15 лет компании потратили миллиарды долларов на витрины и хранилища данных. Всем давно очевидно, что, прежде всего, нужно четко разобраться в исходных системах, начинать с одной или нескольких функциональных областей и бизнес-процессов, но постепенно расширять проект до корпоративных масштабов, а также обеспечивать конечным пользователям доступ к данным, инструментам и приложениям, которые отвечают их требованиям.
Однако остается один вопрос, на который многие до сих пор затрудняются ответить. Какую архитектуру стоит использовать?
Ошибка на этом пути может принести серьезные убытки. BI-архитектура определяется бизнес-требованиями, и для ее успешного использования необходимо руководствоваться долгосрочными целями, а также учитывать, какие изменения могут понадобиться в перспективе. Решения в рамках отдельных подразделений должны не только удовлетворять текущим отчетным нуждам, но и потенциально расширяться до корпоративных масштабов.
На сегодняшний день предложено множество архитектур, опишем пять наиболее распространенных:
Нередка ситуация, когда каждое подразделение компании разрабатывает свою собственную витрину данных. Все эти витрины удовлетворяют потребностям, для которых создавались, но при этом не зависят друг от друга и не обеспечивают единого представления о ситуации в компании. В них несогласованно заданы данные, используются разные измерения и показатели, а следовательно, анализ данных между витринами затруднен.
Предложена Ральфом Кимбэллом (Ralph Kimball).
Создание такой архитектуры начинается с анализа требований для конкретных бизнес-процессов, таких как заказы, клиенты, счета и проч. Первая витрина данных строится для одного бизнес-процесса с использованием измерений и показателей, которые в дальнейшем будут применяться в других компонентах.
Последующие витрины данных разрабатываются с использованием этих измерений, что в результате приводит к созданию логически интегрированных витрин.
Продвигается известным экспертом в области хранилищ данных Билом Инмоном (Bill Inmon). Представляет собой централизованное хранилище данных с зависимыми витринами данных.
Эта архитектура разрабатывается на основе корпоративного анализа требований к данным. Тут важно обратить внимание на создание масштабируемой и поддерживаемой инфраструктуры. На основе использования корпоративного представления данных выполняется итеративная разработка архитектуры, при этом вовлекается одна предметная область за другой. Детальные данные хранятся в нормализованной форме в хранилище данных. Зависимые витрины данных получают данные из хранилища данных.
Зависимые витрины данных разрабатываются для подразделений или конкретных функциональных областей, целей (например, для data mining) и могут быть как нормализованными, так и денормализованными, либо в виде любой агрегированной структуры данных. Большинство пользователей выполняет запросы на зависимых витринах данных.
Иногда архитектуру hub-and-spoke называют подходом «сверху вниз», а шину витрин данных — подходом «снизу вверх». В этом есть некоторый смысл, так как первая ориентирована на исходно заданную инфраструктуру и процессы, а шина витрин данных — на разработку проекта, в котором решаются критические бизнес-задачи.
Подходы «снизу вверх» и «сверху вниз» со временем сближаются. Сторонники первого из них утверждают важность поэтапной разработки и достижения «маленьких побед». Приверженцы второй методологии считают важным наличие корпоративного плана для интеграции поэтапно создаваемых витрин данных.
Эта архитектура похожа на архитектуру «звезда» за исключением отсутствия зависимых витрин данных. Хранилище данных содержит детальные данные, некоторое количество агрегированных данных и логические представления. Запросы и приложения выполняются как на реляционных данных, так и на многомерных представлениях.
В этой архитектуре используются уже существующие структуры поддержки принятия решений (операционные системы, витрины и хранилища данных). Данные извлекаются из перечисленных систем на основе бизнес-требований. Данные логически или физически интегрируются с помощью метаданных, распределенных запросов и других методов. Эта архитектура является практическим решением для компаний, которые уже пользуются аналитическими средствами и не хотят от них отказываться.
У каждой из вышеописанных архитектур есть ряд активных сторонников, и выбор в каждом конкретном случае — непростая задача, грамотное решение которой становится ключевым фактором успеха проекта.
Согласно исследованиям компании TDWI, существует 10 основных факторов, влияющих на выбор архитектуры.
Информационная зависимость между организационными подразделениями
Высокий уровень информационной зависимости возникает в тех организациях, где одно подразделение зависит от сведений, поступающих из другого. В этой ситуации возможность совместного использования и интеграции информации очень важна.
Информационные потребности руководства
Высшему руководству часто требуется информация о более низких организационных уровнях. Иногда возникает потребность углубиться в детальные данные и разобраться в деятельности конкретного подразделения либо убедиться, что компания выполняет необходимые нормативные требования.
Срочность внедрения хранилища данных
Иногда компании необходимо реализовать возможности хранилища данных в очень краткие сроки. Некоторые виды архитектур внедряются быстрее других.
Характер пользовательских задач
Ряд пользователей выполняет сложные и нестандартные задачи. Для реализации их потребностей недостаточно структурированных запросов и отчетов. Им необходимо анализировать данные новыми способами, а следовательно, иметь в распоряжении такую архитектуру, которая позволит анализировать данные «на лету», нетривиальными методами.
Ограниченные ресурсы
Некоторые виды хранилищ данных требуют больше ресурсов, чем другие. В результате на выборе архитектуры может отразиться доступность IT-персонала, бизнес-сотрудников и материальных средств.
Стратегическое представление хранилища данных до внедрения
Разные компании имеют разные планы применения хранилища данных. Иногда необходимо «точечное решение» для конкретного подразделения, а иногда — инфраструктура поддержки принятия решений, содержащая множество приложений. В зависимости от стратегического назначения хранилища данных меняется и его архитектура.
Совместимость с существующими системами
Для некоторых компаний очень важно внедрить решение, совместимое с уже имеющимся программным обеспечением.
Возможности персонала
Внедрение некоторых архитектур считается более сложным в зависимости от навыков и опыта технического персонала, наличия положительного опыта в аналогичных проектах и от уровня конфиденциальности.
На выбор архитектуры влияет множество технических соображений. Это и возможность интеграции метаданных, и масштабируемость пользователей, и объемы данных, и эффективность запросов, и возможность поддержки исторических данных и адаптации к изменениям (например, в исходных системах). В зависимости от важности этих технических вопросов делается выбор в пользу той или иной архитектуры.
Один из социальных факторов — влияние экспертов. Принятие решения — это процесс переговоров, создания коалиций, где играет роль множество амбициозных целей. Нельзя сказать, что у каждой компании есть одна единая задача, которая влияет на выбор архитектуры. Для оптимизации и баланса целей, а следовательно, и для выбора архитектуры необходимо прибегать к помощи экспертов.
Иногда в роли экспертов выступают консультанты, иногда собственные пользователи. В некоторых случаях информация черпается на семинарах, конференциях и прочих мероприятиях. Каждый из этих факторов в некоторой степени влияет на выбор архитектуры. Очень часто это субъективное влияние, связанное с личным успешным опытом специалиста.
В результате исследований и опросов, проведенных TDWI, было выяснено, что все вышеперечисленные факторы (относящиеся к каждой из трех групп) имеют свое значение. Самые важные факторы — взаимозависимость между организационными подразделениями, стратегическое представление о хранилище данных до его внедрения и информационные потребности высшего руководства. Возможности технического персонала — на последнем месте, однако они имеют определенный вес и играют далеко не самую малую роль.
Руководствуясь принципами выбора, предложенными TDWI, можно избежать множества ошибок.
Кроме того, целесообразно учитывать еще целый ряд компетентных соображений. Приведем советы одного из практических специалистов в области внедрения BI — Брайана Шварбрика (Brian Swarbrick).
Выбирая лучшую архитектуру BI-решения, важно рассмотреть следующие вопросы:
По мнению TDWI, доминирующей архитектурой является звезда, за ней следует шина витрин данных и централизованная архитектура, и лишь небольшой процент проектов основан на независимых витринах данных и федеративной архитектуре.
Несмотря на споры вокруг достоинств архитектуры «звезда» и централизованного хранилища данных, их популярность среди пользователей не так уж значительно отличается. Очевидно, что компании рассматривают примерно одни и те же требования, но приходят к разным решениям.
Конечно, можно поспорить, что централизованное хранилище данных проще и быстрее внедрить, так как не надо разрабатывать дополнительные витрины данных. Централизованное хранилище данных чаще выбирают, когда внедрение нужно провести срочно, ограниченность ресурсов выше и больше расчета на собственный персонал.
Архитектура «звезда» чаще всего используется в корпоративных проектах для создания крупных хранилищ данных. Это самые долгосрочные и дорогие проекты, однако и самые результативные. Ничего удивительного тут нет. Функциональный охват таких проектов шире, и размер хранилища данных больше. Эта архитектура требует большей вовлеченности руководства и планирования, а следовательно, материальных и временных ресурсов.
Шина витрин часто выбирается в той ситуации, когда ресурсов вполне достаточно, представление о хранилище данных не носит четкой стратегической ориентации, и совместимость с уже внедренными средствами не играет принципиальной роли.
Лишь немногие компании выбирают федеративную архитектуру, в частности, те, кто ограничен по срокам. У некоторых организаций уже используются разрозненные платформы принятия решений в результате слияний и поглощений. Поэтому они и применяют федеративный подход, наиболее быстро реализуемый. Здесь большую роль играет фактор информационной зависимости между подразделениями компании и информационными потребностями руководства. Вероятно, IT-персоналу предлагается собрать данные из различных систем и удовлетворить потребности администрации, но не заниматься разработкой технически элегантного решения.
Независимые витрины данных имеют самые низкие оценки среди пользователей. Это лишний раз подтверждает общеизвестный факт: эта архитектура далеко не самая лучшая.
Три лидирующие архитектуры подтвердили свою состоятельность практическим опытом и успешным долговременным использованием. Если говорить об информационном и системном качестве, а также об организационном влиянии, то о доминировании одной конкретной архитектуры речь не идет. Они развиваются и со временем приобретают близкие черты. Например, архитектура «звезда» часто включает витрины данных, лежащие в основе архитектуры «шина». Даже методологии разработки (сверху вниз и снизу вверх), а также жизненный цикл с каждым годом обретают общие черты.