В последнее время одной из самых популярных тем становится cloud computing (так называемые "облачные вычисления", впрочем, точного русского перевода этому термину пока не нашлось). В рамках подобного подхода компании, владеющие мощными вычислительными центрами, сдают в аренду различные ресурсы (почтовые и блог-сервисы, фото- и видео-хранилища), обеспечивая каждому пользователю "неограниченное" масштабирование и надежность. Заказчик получает виртуальные сервера (в виде ip-адресов), физическое расположение которых ему неизвестно.
К пионеру в области cloud computing, сервису Amazon's Elastic Compute Cloud (Amazon EC2), за последний год добавились еще AppNexus, GoGrid и Rackspace Cloud. За счет низкой цены (от 4 центов за час машинного времени), минимального времени развертывания и масштабируемости (до 20 серверов мгновенно, большее количество после недолгих согласований) подобные сервисы завоевывают все большую популярность как среди web-разработчиков и ученых, всегда готовых попробовать что-то новое, так и в корпоративном секторе.
Естественно, производители аналитических СУБД и приложений не могли остаться в стороне от модной тенденции и предложили новые продукты на базе "облаков". Некоторые из них особенно ярко отражают интересные тенденции в области анализа данных.
В докладе предполагается осветить 3 интересные, на наш взгляд, тенденции:
1. Предоставление аналитики как сервиса
Объединенные усилия компаний Panorama Software (израильский разработчик BI-продуктов) и широко известного Google позволили расширить функционал Google Docs (онлайн сервиса работы с документами) аналитическими возможностями. Данные, анализируемые пользователем, в этом случае «трансформируются» в микрокубы Panorama на «облаке» Google. Более того, в качестве сервера Google и Panorama предлагают трансформацию не только данных, введенных в таблицу Google Spreadsheets, но и любых данных предприятия, которое в таком случае оплачивает трансформационные затраты и анализирует данные с помощью Google Docs.
Подобные предложения могут существенно изменить существующий ландшафт BI средств, предоставив небольшим предприятиям все богатство BI-инструментов с намного меньшими затратами.
2. Использование «облаков» как платформы для масштабирования
MPP хранилищ данных
Массивно параллельные платформы для ХД (Vertica, Aster, Greenplum) предлагают своим заказчикам возможность располагать свои хранилища в «облаках», беря на себя заботу о поддержке. Заказчик в таком случае получает, помимо облегченного администрирования, возможность гибкого масштабирования системы.
Однако подобные сценарии использования вызывают достаточно много сомнений, в том числе с точки зрения безопасности данных, скорости работы и пр. Некоторым примерам и подходам посвящена эта часть доклада.
3. Противопоставление использования Map-Reduce алгоритмов для решения аналитических задач или использование MPP хранилищ данных
Map\Reduce, как платформа масштабирования вычислений, последнее время приобретает все большую популярность. Использование «облаков» в данном случае позволяет снять аппаратные ограничения по масштабируемости. Все больше примеров использования Map\Reduce кластеров для решения аналитических задач (самым известным из которых является Facebook, с 2,5 Пб данных), что не может не вызывать беспокойства у создателей MPP платформ для ХД, призванных решать этот же класс задач. В частности, Майкл Стоунбрейкер, один из создателей Vertica (MPP ХД), на SIGMOD 2009 представил статью, сравнивающую Map\Reduce и Vertica в различных сценариях.
При этом часть производителей MPP ХД встраивает Map\Reduce платформы в свои решения. Наиболее известными подобными решениями являются Aster Data и Greenplum.
Сравнению случаев применения Map\Reduce и РСУБД посвящена эта часть доклада.