Logo Море(!) аналитической информации!
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware
VPS/VDS серверы. 30 локаций на выбор

Серверы VPS/VDS с большим диском

Хорошие условия для реселлеров

4VPS.SU - VPS в 17-ти странах

2Gbit/s безлимит

Современное железо!

Бесплатный конструктор сайтов и Landing Page

Хостинг с DDoS защитой от 2.5$ + Бесплатный SSL и Домен

SSD VPS в Нидерландах под различные задачи от 2.6$

✅ Дешевый VPS-хостинг на AMD EPYC: 1vCore, 3GB DDR4, 15GB NVMe всего за €3,50!

🔥 Anti-DDoS защита 12 Тбит/с!

2010 г.

MapReduce и параллельные СУБД: друзья или враги?

Майкл Стоунбрейкер, Дэниэль Абади, Дэвит Девитт, Сэм Мэдден, Эрик Паулсон, Эндрю Павло и Александр Разин
Перевод: Сергей Кузнецов

Назад Содержание

7. Взаимообучение

Чему может научиться MR у СУБД? Сторонникам MR следует обучиться технологиям и методам эффективного параллельного выполнения запросов. Инженерам нужно пользоваться опытом своих предшественников, а не повторять сделанную ими работу. В подсистемах выполнения запросов параллельных СУБД имеется много хороших идей, которые следовало бы усвоить разработчикам систем MR.

Мы также полагаем, что для любой системы обработки данных полезны языки более высокого уровня. Потрясающий успех реляционных СУБД во многом связан с тем, что они позволили программистам подняться на более высокий, более продуктивный уровень абстракции, на котором они могли просто формулировать системе свои потребности, а не составлять какой-либо алгоритм, в соответствии с которым система удовлетворяла бы эти потребности. В своем исследовании мы установили, что написать код на языке SQL для каждой задачи тестового набора оказывается существенно проще, чем написать соответствующий процедурный код для MR.

Следует форсировать работы по созданию интефейсов высокого уровня поверх MR/Hadoop. Мы приветствуем Hive [21], Pig [15], Scope [6], Dryad/Linq [12] и другие проекты, прокладывающие путь в этом направлении.

Чему могут научиться у MR СУБД? У большинства СУБД далеко не идеален процесс их начальной раскрутки, от установки до приведения в готовность к выполнению запросов. Коммерческие СУБД должны развиваться по направлению к простой установке с помощью одного нажатия кнопки, правильно работающей автоматический настройке, улучшенным Web-сайтам с примерами кода, улучшенным генераторам запросов и к улучшенной документации.

Многие системы баз данных не могут работать с таблицами, сохраняемыми в файловых системах (с данными "по месту"). Рассмотрим случай, в котором СУБД используется для хранения некоторого очень крупного набора данных, над которым пользователь желает выполнить анализ с привлечением небольшого частного набора данных. Чтобы получить доступ к этому небольшому набору данных, пользователь сначала должен загрузить данные в СУБД. Если не планируется многократное выполнение анализа, было бы лучше просто указать СУБД на данные на локальном диске, а не выполнять фазу загрузки. Нет никаких разумных оснований к тому, чтобы СУБД не могла работать с данными "по месту". Хотя у некоторых систем баз данных (например, у PostgreSQL, DB2 и MS SQL Server) соответствующие возможности имеются, требуется дополнительная гибкость.

8. Заключение

Большая часть обсуждавшихся выше архитектурных различий происходит из различий в ориентации двух рассматриваемых классов систем. Параллельные СУБД преуспевают в области эффективной обработки запросов к крупным наборам данных. Системы в стиле MR отличаются в областях сложной аналитики и ETL. Системы одного класса никогда не блещут достоинствами в ситуациях, выигрышных для систем другого класса. Поэтому эти две технологии являются взаимодополняющими, и мы полагаем, что MR-системы, выполняющие ETL, займут место систем предварительной обработки данных для СУБД.

Для решения многих сложных аналитических проблем требуются возможности, обеспечиваемые системами обоих классов. Следовательно, нужны интерфейсы между системами MR и СУБД, позволяющие каждой системе делать то, к чему она лучше всего пригодна. Может оказаться гораздо эффективнее использовать такую гибридную систему, чем пытаться реализовать все приложение целиком на основе только СУБД или MR. Другими словами, чем "умнее" программное обеспечение, тем лучше.

9. Благодарность

Эта работа частично поддерживалась грантами Национального научного фонда США CRI-0707437, CluE-0844013 и CluE-0844480.

10. Литература

  1. Abadi, D.J., Madden, S.R., and Hachem, N. ColumnStores vs. RowStores: How Different Are They Really? In Proceedings of the SIGMOD Conference on Management of Data. ACM Press, New York, 2008. Имеется перевод на русский язык: Дэниэль Абади, Сэмюэль Мэдден, Набил Хачем. СУБД с хранением данных по столбцами и по строкам: насколько они отличаются в действительности?
  2. Abadi, D.J., Marcus, A., Madden, S.R., and Hollenbach, K. Scalable Semantic Web Data Management Using Vertical Partitioning. In Proceedings of the 33rd International Conference on Very Large Databases, 2007.
  3. Abadi, D.J. Column­Stores For Wide and Sparse Data. In Proceedings of the Conference on Innovative Data Systems Research, 2007.
  4. Abouzeid, A., Bajda-Pawlikowski, K., Abadi, D.J., Silberschatz, A., and Rasin, A. HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads. In Proceedings of the Conference on Very Large Databases, 2009.
  5. Boral, H. et al. Prototyping Bubba, a highly parallel database system. IEEE Transactions on Knowledge and Data Engineering 2, 1 (Mar. 1990), 4–24.
  6. Chaiken, R., Jenkins, B., Larson, P., Ramsey, B., Shakib, D., Weaver, S., and Zhou, J. SCOPE: Easy and Efficient Parallel Processing of Massive Data Sets. In Proceedings of the Conference on Very Large Databases, 2008.
  7. Dean, J. and Ghemawat, S. MapReduce: Simplified data processing on large clusters. In Proceedings of the Sixth Conference on Operating System Design and Implementation (Berkeley, CA, 2004).
  8. DeWitt, D.J. and Gray, J. Parallel database systems: The future of high-performance database systems. Commun. ACM 35, 6 (June 1992), 85–98. Имеется перевод на русский язык: Дэвид Девитт, Джим Грэй. Параллельные системы баз данных: будущее высоко эффективных систем баз данных.
  9. DeWitt, D.J., Gerber, R.H., Graefe, G., Heytens, M.L., Kumar, K.B., and Muralikrishna, M. GAMMA - A High Performance Dataflow Database Machine. In Proceedings of the 12th International Conference on Very Large Databases. Morgan Kaufmann Publishers, Inc., 1986, 228–237.
  10. Englert, S., Gray, J., Kocher, T., and Shah, P. A Benchmark of NonStop SQL Release 2 Demonstrating Near-Linear Speedup and Scaleup on Large Databases. Sigmetrics Performance Evaluation Review 18, 1 (1990), 1990, 245–246.
  11. Fushimi, S., Kitsuregawa, M., and Tanaka, H. An Overview of The System Software of A Parallel Relational Database Machine GRACE. In Proceedings of the 12th International Conference on Very Large Databases, Morgan Kaufmann Publishers, Inc., 1986, 209–219.
  12. Isard, M., Budiu, M., Yu, Y., Birrell, A., and Fetterly, D. Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks. SIGOPS Operating System Review 41, 3 (2007), 59–72.
  13. Monash, C. Some very, very, very large data warehouses. In NetworkWorld.com community blog, May 12, 2009.
  14. Monash, C. Cloudera presents the MapReduce bull case. In DBMS2.com blog, Apr. 15, 2009.
  15. Olston, C., Reed, B., Srivastava, U., Kumar, R., and Tomkins, A. Pig Latin: A not-so-foreign language for data processing. In Proceedings of the SIGMOD Conference. ACM Press, New York, 2008, 1099–1110.
  16. Patterson, D.A. Technical perspective: The data center is the computer. Commun. ACM 51, 1 (Jan. 2008), 105.
  17. Pavlo, A., Paulson, E., Rasin, A., Abadi, D.J., DeWitt, D.J., Madden, S.R., and Stonebraker, M. A comparison of approaches to large-scale data analysis. In Proceedings of the 35th SIGMOD International Conference on Management of Data. ACM Press, NewYork, 2009, 165–178. Имеется перевод на русский язык: Эндрю Павло, Эрик Паулсон, Александр Разин, Дэниэль Абади, Дэвид Девитт, Сэмюэль Мэдден, Майкл Стоунбрейкер. Сравнение подходов к крупномасштабному анализу данных.
  18. Stonebraker, M. and Rowe, L. The Design of Postgres. In Proceedings of the SIGMOD Conference, 1986, 340–355.
  19. Stonebraker, M. The Case for Shared Nothing. Data Engineering 9 (Mar. 1986), 4–9.
  20. Teradata Corp. Database Computer System Manual, Release 1.3. Los Angeles, CA, Feb. 1985.
  21. Thusoo, A. et al. Hive A Warehousing Solution Over a MapReduce Framework. In Proceedings of the Conference on Very Large Databases, 2009, 1626–1629.

Назад Содержание

VPS в России, Европе и США

Бесплатная поддержка и администрирование

Оплата российскими и международными картами

🔥 VPS до 5.7 ГГц под любые задачи с AntiDDoS в 7 локациях

💸 Гифткод CITFORUM (250р на баланс) и попробуйте уже сейчас!

🛒 Скидка 15% на первый платеж (в течение 24ч)

Скидка до 20% на услуги дата-центра. Аренда серверной стойки. Colocation от 1U!

Миграция в облако #SotelCloud. Виртуальный сервер в облаке. Выбрать конфигурацию на сайте!

Виртуальная АТС для вашего бизнеса. Приветственные бонусы для новых клиентов!

Виртуальные VPS серверы в РФ и ЕС

Dedicated серверы в РФ и ЕС

По промокоду CITFORUM скидка 30% на заказ VPS\VDS

Новости мира IT:

Архив новостей

IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Информация для рекламодателей PR-акции, размещение рекламы — adv@citforum.ru,
тел. +7 495 7861149
Пресс-релизы — pr@citforum.ru
Обратная связь
Информация для авторов
Rambler's Top100 TopList This Web server launched on February 24, 1997
Copyright © 1997-2000 CIT, © 2001-2019 CIT Forum
Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...