Logo Море(!) аналитической информации!
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware
Бесплатный конструктор сайтов и Landing Page

Хостинг с DDoS защитой от 2.5$ + Бесплатный SSL и Домен

SSD VPS в Нидерландах под различные задачи от 2.6$

✅ Дешевый VPS-хостинг на AMD EPYC: 1vCore, 3GB DDR4, 15GB NVMe всего за €3,50!

🔥 Anti-DDoS защита 12 Тбит/с!

VPS в России, Европе и США

Бесплатная поддержка и администрирование

Оплата российскими и международными картами

🔥 VPS до 5.7 ГГц под любые задачи с AntiDDoS в 7 локациях

💸 Гифткод CITFORUM (250р на баланс) и попробуйте уже сейчас!

🛒 Скидка 15% на первый платеж (в течение 24ч)

2020 г.

Сиэтлский отчет об исследованиях в области баз данных

Дэниел Абади, Анастасия Айламаки, Дэвид Андерсон, Питер Бейлис, Магдалена Балазинска, Филип Бернстейн, Петер Бонч, Сурадждит Чаудхари, Элвин Чун, ЭнХай Доан, Льюна Дон, Майкл Дж. Франклин, Джулиана Фрейре, Джозеф М. Хеллерштейн, Стратос Идреос, Дональд Коссманн, Тим Краска, Сайлеш Кришнамурти, Волкер Маркл, Сергей Мельник, Това Мило, К. Мохан, Томас Нойманн, Бенг Чин Уи, Фатьма Озкан, Джинеш Патель, Эндрю Павло, Ралука Попа, Раджу Рамакришнан, Кристофер Ре, Майкл Стоунбрейкер, Дэн Сучу

The Seattle Report on Database Research
Daniel Abadi, Anastasia Ailamaki, David Andersen, Peter Bailis, Magdalena Balazinska, Philip Bernstein, Peter Boncz, Surajit Chaudhuri, Alvin Cheung, AnHai Doan, Luna Dong, Michael J. Franklin, Juliana Freire, Alon Halevy, Joseph M. Hellerstein, Stratos Idreos, Donald Kossmann, Tim Kraska, Sailesh Krishnamurthy, Volker Markl, Sergey Melnik, Tova Milo, C. Mohan, Thomas Neumann, Beng Chin Ooi, Fatma Ozcan, Jignesh Patel, Andrew Pavlo, Raluca Popa, Raghu Ramakrishnan, Christopher Ré, Michael Stonebraker and Dan Suciu
ACM SIGMOD Record, vol. 48, no. 4, December 2019, pp. 44-53

Вашему вниманию предлагается перевод Сиэтлского отчета о встрече ведущих исследователей в области баз данных. Материал представляется мне интересным, хотя и не бесспорным. Я не включил в перевод какие-либо свои комментарии, планируя посвятить этому (и другим связанным вопросам) отдельную статью. Однако я включил в текст несколько десятков ссылок на различные сетевые ресурсы. Главным образом, это сделано для облегчения чтения отчета, в котором используется много новых терминов, смысл которых не всегда понятен из контекста. Предыдущим восьми аналогичным встречам посвящена моя статья «Управление данными: 25 лет прогнозов». В ней же можно найти ссылки на оригинальные отчеты и их переводы/пересказы на русский язык.

Сергей Кузнецов

Аннотация. Примерно раз в пять лет группа исследователей в области баз данных собирается, чтобы произвести самооценку сообщества баз данных, включая влияние исследователей на индустрию и проблемы, стоящие перед исследовательским сообществом. В этом отчёте кратко описываются обсуждения и выводы, имевшие место во время девятой подобной встречи, проходившей в Сиэтле 9–19 октября 2018 г.

1. Введение

На протяжении всего времени существования области баз данных академические исследования сильно влияли на индустрию баз данных и наоборот. С годами сообщество баз данных, как академическое, так и производственное, значительно расширилось. Один лишь рынок реляционных баз данных приносит доход более 50 миллиардов долларов. Академические исследователи продолжают удостаиваться значимых наград. После получения Майклом Стоунбрейкером Тьюринговской премии в 2014 г. сообщество может гордиться четырьмя Тьюринговскими премиями и тремя премиями ACM Systems Software[1].

Отчетливо заметен значительный прогресс, достигнутый исследовательским сообществом баз данных в последние годы. За последнее десятилетие наше исследовательское сообщество инициировало подход к поколоночному хранению таблиц (columnar storage), который используется во всех коммерческих платформах анализа данных, независимо от того, реляционные они или нет. Системы баз данных, предлагаемые в виде облачных сервисов, широко используются и демонстрируют взрывной рост. Важным сегментом отрасли в настоящее время являются гибридные системы транзакционной/аналитической обработки данных (Hybrid Transactional/Analytical Processing, HTAP). На всех платформах данных используются API в стиле SQL в качестве основного способа запросов и извлечения данных. Исследуется новое поколение технологий очистки (data cleaning) и предварительной обработки данных (data wrangling). Исследователи баз данных сыграли важную роль в эволюционном развитии потоковых платформ данных, а также систем NoSQL.

Наши достижения показывают, что состояние нашего сообщества является устойчивым. Тем не менее, в технологии неизменны только постоянные изменения. Сегодня мы живем в обществе, управляемом данными, в котором на принятие решений все чаще влияют результаты анализа соответствующих данных («данные – это новая нефть»). Эти социальные преобразования ставят наше сообщество прямо в центр технологических прорывов. Однако тот факт, что сегодня данные находятся в центре всего, также означает, что у области баз данных увеличилась широта охвата и появились новые проблемы. Действительно, даже за последние пять лет в индустрии и исследовательском сообществе многое изменилось. Технологические тренды обеспечивают нашему сообществу уникальную возможность оказывать на мир большее влияние, чем когда-либо в истории.

Осенью 2018 г. авторы этого отчета встретились в Сиэтле, чтобы определить и обсудить направления исследований сообщества, которые кажутся наиболее перспективными с учетом основных событий, влияющих на нашу область. В нашем сообществе имеется многолетняя традиция таких встреч, проводимых примерно раз в пять лет. Первая подобная встреча состоялась во время проведения конференции VLDB в 1988 году [3], а встреча, предшествующая нашей встрече в Сиэтле, – в Ирвине в 2013 г. [2].

В этом отчете кратко излагаются выводы, к которым пришли участники Сиэтлской встречи исследователей баз данных. Мы начинаем с обсуждения основных технологических трендов, влияющих на нашу область. В центральной части отчета описываются темы исследований, которые мы считаем особенно перспективными. Завершается отчет обсуждением шагов, которые сообщество может предпринять, чтобы обрести возможность воздействия на общество не только путем решения технических исследовательских проблем.

2. Что изменилось за последние пять лет?

Переход к принятию решений на основе данных продолжается уже много лет. Уже в предыдущем отчете говорилось, что большие данные (Big Data) являются центральной проблемой области баз данных [2]. Однако в последние пять лет этот переход ускорился значительно сильнее, чем мы ожидали, отчасти благодаря технологическим прорывам в областях машинного обучения (machine learning, ML) и искусственного интеллекта (artificial intelligence, AI). Глубокие нейронные сети (deep neural networks, DNN), помимо прочего, привели к небывалому прогрессу в областях анализа изображений (image analysis) и обработки текстов на естественных языках (natural language processing, NLP). Обучение с подкреплением (reinforcement learning) стало мощной парадигмой, дополняющей традиционное обучение с учителем (supervised learning). В последнее время модели, подобные BERT, сулят демократизацию использования естественных языков как моделей взаимодействия для задач любых предприятий, а не только Интернет-компаний, обладающих обширными корпусами информации. Барьеры для написания приложений на основе ML резко снижены благодаря широкой доступности таких сред программирования, как TensorFlow и PyTorch, а также появлению новых FPGA, GPU и специализированной аппаратуры, используемой в частных и публичных облачных средах. При наличии имеющегося опыта обнаружения данных (data discovery), управления версиями, очистки и интеграции данных сообщество баз данных может многое предложить пользователям ML. Эти технологии имеют решающее значение для платформ машинного обучения, поддерживая их возможность извлечения знаний из данных. Для выполнения процессов статистического вывода и обучения могут быть полезны методы оптимизации запросов. Сообщество баз данных может также помочь найти способ естественной интеграции традиционных функциональных возможностей SQL и машинного обучения. Более того, по мере роста доступности информации об использовании платформ управления данными ML можно будет применять для преобразования самих этих платформ.

Родственным явлением является становление науки о данных (data science) как дисциплины, сочетающей элементы очистки данных, их преобразования, статистического анализа, визуализации данных и машинного обучения. Сегодняшний мир науки о данных значительно отличается от прежнего мира статистических инструментов, таких как SAS и SPSS, а также от мира корпоративной интеграции данных с его традиционными инструментами преобразования данных. Наиболее популярную интерактивную среду теперь, безусловно, образуют блокноты (interactive notebook). Наш опыт работы с декларативными языками запросов может обогатить мир науки о данных, сделав его более доступным для специалистов из различных предметных областей, особенно для тех, у кого отсутствуют традиционные знания в области компьютерных наук.

Наше сообщество все более интересуется состоянием дел в области руководства данными (data governance). Это трудная проблема, поскольку данные перемещаются внутри информационных систем, а также между организационными единицами и национальными границами. Руководство данными предполагает, что владельцы данных соблюдают конфиденциальность данных и другие ограничения, связанные с перемещением данных. Среди средств, позволяющих удовлетворить эти требования, важными ингредиентами являются технологии отслеживания происхождения данных (data provenance) и управления метаданными (metadata management). Потребность в руководстве данными также привела к появлению конфиденциальных облачных вычислений (confidential cloud computing), задача которых — использование облачных ресурсов при хранении данных в зашифрованном виде. Помимо руководства данными, общественную озабоченность вызывают вопросы этики и правомерности использования данных. Эта проблема влияет на все области компьютерной науки, но особенно она важна для управления данными, где должно контролироваться следование установленным политикам.

В прошлом отчете отмечалось, что «облачные вычисления стали магистральным направлением», и действительно, в последние пять лет использование облачных систем управления данными значительно выросло. В качестве альтернативы модели предусмотренных ресурсов (provisioned resources) облачная индустрия предлагает модель ресурсов по требованию (on-demand resources), обеспечивающую исключительно гибкую адаптацию и часто называемую бессерверной (serverless). В области аналитики индустрия склонилась к архитектуре «озер данных» (data lake), в которой эластичные компьютерные сервисы используются для анализа данных в облачных хранилищах «по требованию». Эластичные вычисления могут использоваться в системах больших данных, таких как Apache Spark, в традиционных системах обработки SQL-запросов к хранилищам данных или в процессах ML. Работа с сохраненными в облаке данными происходит с использованием промежуточной сети. В этой архитектуре разъединяются вычисления и хранение данных, так что они могут масштабироваться независимо. Такие изменения оказывают серьезное влияние на подходы к разработке будущих систем данных.

Развитие индустриального Интернета вещей (Internet-of-Things, IoT), ориентированного на такие области, как производство, розничная торговля и здравоохранение, в последние пять лет значительно ускорилось за счет наличия разнообразных возможностей подключения, облачных сервисов управления данными и инфраструктуры анализа данных. Требования этой области еще раз подвергли нагрузочному тестированию наши способности восприятия данных и быстрого извлечения информации для поддержки сценариев реального времени, в частности, мониторинга. Эффективность систем IoT также зависит от эффективности средств начальной обработки данных до их передачи по сети, включая фильтрацию, сэмплирование (sampling) и агрегирование.

Наконец, значительные изменения произошли в области аппаратного обеспечения. После завершения действия закона масштабирования Деннарда (Dennard scaling) и с ростом объемов вычислительных нагрузок, свойственных, например, DNN, применяется новое поколение аппаратных ускорителей на основе FPGA, GPU и заказных интегральных микросхем (Application Specific Integrated Circuit, ASIC). Похоже, что на сегодняшний день только такие подходы могут обеспечить обучение больших моделей. Иерархия хранения данных продолжает меняться с появлением нового поколения SSD и NVRAM с низкими значениями задержки. Продолжают впечатлять возможности специализированных межкомпонентных соединений и достигнутые показатели пропускной возможности и задержки сетей. Если говорить об изменениях вне центров обработки данных, появление мобильных сетей 5G c достаточной пропускной способностью может изменить характеристики рабочей нагрузки платформ данных. Эти события указывают на потребность использования разнообразных аппаратных средств при выработке архитектур механизмов управления базами данных следующего поколения.

3. Исследовательские проблемы

Несмотря на то, что мы достигли прогресса в решении некоторых ключевых задач, сформулированных в предыдущем отчете [2], многие сложные вопросы остаются актуальными и сегодня. Изменения, описанные в предыдущем разделе, дают нам новые сценарии, которые также заслуживают рассмотрения. В данном отчете объединяются эти два набора проблем, обсуждение которых содержится в следующих четырех подразделах. В первом подразделе описываются задачи науки о данных, в решении которых наше сообщество может сыграть большую роль. Второй подраздел посвящен возникающим социальным проблемам руководства данными. Последние два подраздела относятся к облачным сервисам управления данными и тесно связанной теме механизмов управления базами данных. Следует заметить, что некоторые проблемы, например, машинное обучение, характерны сразу для нескольких тем.

3.1 Наука о данных

Консультативный комитет директората по компьютерам, информатике и инженерии Национального научного фонда США (NSF CISE Advisory Committee) определяет науку о данных как область, которая фокусируется на «процессах и системах, которые позволяют извлекать знания или информацию из данных, представленных в различных формах, структурированных или неструктурированных». За последнее десятилетие наука о данных стала важнейшей междисциплинарной областью, и в будущем ее значение только возрастет.

Наука о данных используется для принятия важных решений в компаниях и определения открытий в науке. Она используется как при принятии одноразовых решений, так и для отслеживания ключевых показателей эффективности (Key Performance Indicator, KPI) в течении продолжительных периодов времени. С технической точки зрения наука о данных рассматривает «конвейер» от необработанных входных данных через интеграцию и первичную обработку данных до анализа, визуализации данных и, наконец, их понимания.

На протяжении всей истории систем баз данных пользователи извлекали информацию из своих баз данных. Они использовали сложные SQL-запросы, оперативную аналитическую обработку данных (online analytical processing, OLAP), методы интеллектуального анализа данных (data mining) и пакеты статистических программ. Современный специалист по обработке и анализу данных работает в другой среде. Новым стандартом de facto является Jupyter Notebook, и аналитики для выполнения сложного анализа данных опираются на изобильную экосистему библиотек с открытыми исходными кодами, включая новейшие методы ML. Они также работают с озерами данных, сохраняющими наборы структурированных и неструктурированных данных с разными уровнями качества – значительный отход от тщательно организованных хранилищ данных (data warehouse). Кроме того, наука о данных является принципиально мультидисциплинарной областью с глубокой интеграцией с предметными областями, как научными, так и производственными. Эти характеристики науки о данных ставят перед сообществом баз данных новые задачи, которые обсуждаются ниже.

Интеграция и первичная обработка данных. Специалисты по обработке и анализу данных (data scientist) часто говорят, что интеграция и первичная обработка данных составляют 80-90% их задач. Сообщество баз данных работало над решением подобных задач в течение десятилетий. Поэтому оно может обеспечить четкое понимание основных проблем и известных решений. В прошлом мы тратили большую часть своих усилий на решение «точечных проблем», например, на поиск алгоритмов для решения конкретных задач типа разрешения сущностей (entity resolution). Теперь требуется потратить больше сил на обеспечение сквозного конвейера от данных до знаний, включая выработку концепции систем, которые поддерживают весь путь от необработанных данных до желаемых пользователями результатов, таких как визуализация ответа на вопрос пользователя или прогноз при помощи модели машинного обучения.

Контекст и происхождение данных. Специалистам по обработке и анализу данных требуется понимание качества результатов, получаемых в результате работы конвейера от данных к знаниям. В традиционных приложениях баз данных результаты запросов считаются корректными, полными и свежими. Данным доверяют, потому что они создаются той же сущностью, что их использует. В современных приложениях корректность, полноту, свежесть и достоверность данных нельзя принимать на веру. Потребителям требуется знать, в какой степени поддерживаются эти свойства, и осознавать последствия. Для этого требуется понимание контекста поступающих данных и процессов их обработки. Это классическая проблема происхождения данных, включающая отслеживание, интеграцию и анализ метаданных. Помимо объяснения результатов, информация о происхождении данных также обеспечивает их воспроизводимость, которая исключительно важна для науки о данных, хотя достичь ее особенно трудно, когда для данных действует политика ограниченного хранения (limited retention policy). На этой области нам следует сосредоточить свои усилия.

Управление данными при поддержке машинного обучения. Для организации конвейеров науки о данных требуется машинное обучение, включая новейшие методы, например, глубокое обучение (deep learning). Сообщество баз данных должно оказать поддержку этому новому типу рабочей нагрузки. Кроме разработки эффективных методов выполнения таких рабочих нагрузок (см. подраздел 3.4), требуется исследовать парадигмы декларативного программирования, пригодные для спецификации и оптимизации всех стадий конвейеров машинного обучения (обнаружение данных, подготовка данных и построение модели). Управление моделями и экспериментами в машинном обучении – это область, в которой наше сообщество может оказать всестороннюю поддержку, включая, помимо прочего, управление версиями моделей. Для машинного обучения важно и происхождение данных, поскольку информация о нем может помочь выявить расхождения между тестовыми и обучающими данными, которые могут вызывать потерю точности модели.

Быстрый предварительный анализ данных: Чтобы поддерживать предварительный анализ данных (exploratory analysis) специалистами по обработке и анализу данных, системы должны обеспечивать интерактивное время отклика при работе с большими данными, поскольку при наличии большой задержки снижается скорость, с которой пользователи делают наблюдения, производят обобщения и генерируют гипотезы. Дополнительные исследования требуются для обеспечения масштабируемой визуализации и интерактивной обработки запросов. Необходимы исследования и для разработки методов, позволяющих создавать и отлаживать сложные конвейеры науки о данных проще, чем путем написания кода на императивном языке типа Python. Для выполнения этой работы также требуются изменения в практике конференций сообщества баз данных, которые должны стимулировать исследования пользователей, оценивающие влияние новой технологии на деятельность специалистов по обработке и анализу данных.

Современные анализ и управление данными, включая науку о данных, продолжают перемещаться в публичные облака, где данные для анализа извлекаются из озер данных. Как обсуждается ниже, это изменение вызывает значительные последствия. Большие данные, наука о данных и искусственный интеллект также привели к появлению более разнообразных приложений, которые часто не вписываются в реляционную модель. Исследователи средств управления данными должны работать над определением требуемых моделей данных, операций запросов, схем хранения и оптимизаторов для появляющихся приложений с интенсивным использованием данных. Для этого требуются участие в разработке сквозных систем и экспериментирование с пользовательскими приложениями.

Поскольку сообщество исследователей баз данных работало над многими аспектами конвейера от данных к знаниям, мы имеем все возможности для того, чтобы оказывать большое влияние на технологию науки о данных. Однако мы должны сотрудничать со специалистами других областей, чтобы наш вклад в развитие этой технологии был широко осознан и применён. Для нашего сообщества пришло время разработать программу развития науки о данных, опирающуюся на наши сильные стороны, привлекающую широкое участие специалистов других областей и помогающую формировать эту новую область.

3.2 Руководство данными

Управление данными стало социально ответственным, как, впрочем, и вся компьютерная наука. Поскольку технологии продолжают оказывать все более глубокое влияние на общество, сообщество баз данных должно уделять больше внимания социальному влиянию технологий, которые оно развивает.

Сегодня конечные пользователи производят данные, которые становятся входными данными многих приложений, работающих с данными большого объема. Отчасти эти данные касаются людей: наши дома становятся «умными», с датчиками, расположенными в дверных звонках, термостатах и других приборах; в наши жилые комнаты вошли виртуальные помощники; медицинские записи оцифрованы; социальные сети общедоступны и широко популярны. С приложениями, использующими эти источники данных, связаны не только технические проблемы, но и проблемы конфиденциальности и права собственности. Производители данных обладают экономической и личной заинтересованностью в том, чтобы данные использовались только определенным образом. Например, они могли бы разрешить использование своих личных медицинских карт для медицинских исследований, но не в военных областях. Общий регламент по защите данных Европейского союза (European Union’s General Data Protection Regulation, GDPR), получивший широкое распространение за пределами Европы, напрямую связан с вопросами конфиденциальности данных и их использования. Эти темы руководства данными (data governance) обсуждаются ниже.

Политика использования данных и их совместное использование. В индустрии конвейеры науки о данных часто бывают сложными, и разные подгруппы работают на различных стадиях конвейера: одна группа подготавливает данные; другая строит модели на этих данных, а третья обращается к данным и моделям с помощью интерактивных информационных панелей (interactive dashboards). Кроме того, группы специалистов по обработке и анализу данных используют в озерах данных несколько источников разнородных данных. Сообществу разработчиков баз данных требуется разработать инструменты, поддерживающие совместную работу с данными, включая разметку, аннотирование, обмен, безопасность, обнаружение и сбор метаданных о происхождении данных. Такое сотрудничество с совместным использованием данных должно подчиняться требованиям тщательного контроля доступа и аудита, чтобы данные использовались только нужными людьми и в правильных целях. Информация о происхождении данных требуется для поддержки масштабируемого аудита, позволяющего проверять допустимость использования данных. Наконец, по мере роста объемов данных нам необходимо совершенствовать методы сжатия данных, переноса данных в холодное хранилище (cold storage) и выбора данных для удаления из хранилища.

Конфиденциальность данных. По мере того, как мы продолжаем агрегировать данные, ключевой проблемой становится балансировка соблюдения конфиденциальности данных с их аналитическим использованием для поддержки принятия решений. Основой для большей части работы по обеспечению конфиденциальности, в том числе и в нашем сообществе, являются криптографические методы, а также дифференциальная конфиденциальность (differential privacy). Однако до сих пор неясно, каким образом дифференциальную конфиденциальность можно эффективно внедрить в платформы управления базами данных без существенного ограничения областей запросов. Сотрудничество между организациями также должно подчиняться ограничениям конфиденциальности, и для его поддержки должны применяться методы типа безопасных многосторонних вычислений (multi-party computation).

Этика науки о данных. Модели машинного обучения могут являться причиной предвзятости и дискриминации. Деятельность по обнаружению таких проблем и борьбе с ними получила широкое распространение в исследованиях и практической деятельности. Предвзятость часто происходит от самих входных данных. Иногда это случается из-за недостаточно репрезентативных данных, используемых для обучения моделей. Наше сообщество может применить опыт в областях оценки качества и интеграции данных, чтобы помочь решить эту проблему. Ответственное управление данными (responsible data management) стало новым научным направлением, в которое сообщество управления данными может внести большой вклад. Связанная с этим проблема заключается в выявлении данных, предназначенных для дезинформации, например, в социальных сетях. Для решения этой проблемы требуется применение методов определения намерений (inferring intent), а также сотрудничество с сообществами NLP, компьютерного зрения и другими.

3.3 Облачные сервисы

Перенос рабочих нагрузок в облака привел к взрывному росту облачных сервисов баз данных, что, в свою очередь, привело к существенным инновациям, экспериментам, а также новым исследовательским задачам.

Проблемы новых моделей использования. Простейшей моделью использования моделей облачных сред является инфраструктура-как-сервис (Infrastructure-as-a-Service, IaaS). Эта модель очень гибка, но пользователи должны сами справляться со всем оперативным управлением системой баз данных. Перспективной тенденцией рынка таких услуг является использование инноваций, таких как «спотовые цены» (spot pricing) базовых сервисов IaaS для оптимизации затрат на поддержку некритических рабочих нагрузок. В отличие от IaaS, управляемые услуги (managed services), предлагаемые облачными провайдерами или сторонними поставщиками многооблачных (multi-cloud) решений, резко снижают сложность использования, но обеспечивают меньшую гибкость. Когда управляемые сервисы только появились, пользователи платили за них в соответствии с моделью обеспечиваемой производительности (provisioned capacity). В настоящее время появились альтернативные модели потребления: ценообразование на основе использования (usage-based pricing), а также гибридные модели, которые поддерживают автоматическое масштабирование вычислений и хранения данных по требованию на основе событий (on-demand event-driven auto-scaling). По мере того, как мы продолжаем переходить от предварительно предусмотренных ресурсов к гибкой инфраструктуре по требованию, включая бессерверную инфрастуктуру, возникают новые проблемы управления состояниями. Как лучше всего обеспечивать бессерверные сервисы баз данных с моделью оплаты ресурсов, предоставляемых по требованию? Такое динамическое создание служб управления данными под управлением событиями окажет значительное влияние на архитектуру механизмов выполнения запросов и хранения данных. Двумя другими ключевыми трудностями для пользователей облачных услуг управления данными являются отсутствие соглашений о качестве предоставляемых услуг (Service Level Agreement, SLA) для таких облачных сервисов, кроме соглашений, которые касаются доступности данных, и отсутствие ясности в том, как автоматическое масштабирование и другие возможные варианты влияют на стоимость использования сервисов.

Проблемы облачной архитектуры. Облачная архитектура обеспечивает уникальные возможности для инновационной разработки систем баз данных, но и ставит перед разработчиками ряд проблем.

  • Дезагрегирование (disaggregation). Важной характеристикой облачных архитектур является использование очень крупных пулов стандартной аппаратуры, которые подвержены масштабным аппаратным и программным сбоям. Чтобы справиться с такими сбоями, в современных облачных системах баз данных все больше разъединяются хранилище данных и вычислительные ресурсы для достижения высокого уровня доступности, масштабируемости и долговечности хранения данных. Например, все распределенные платформы озер данных уже перестроены или перестраиваются на основе использования раздельных служб вычислений и хранения данных. Дезагрегирование является ключом к обеспечению эластичности вычислений, но возможность такого подхода удовлетворять требованиям времени отклика критически зависит от эффективности кэширования, что является сложной задачей из-за наличия нескольких уровней иерархии памяти. Применимость подхода также зависит от поддержки некоторых минимальных вычислений в службе хранения данных, позволяющей резко сократить перемещение данных. (См. также подраздел 3.4.)

  • Коллективная аренда (multi-tenancy): В отличие от традиционных сред, где ресурсы ограничены и тщательно подобраны в расчете на конкретную рабочую нагрузку, облачная инфраструктура дает возможность иначе взглянуть на базы данных в мире с изобилием ресурсов, которые можно объединять для поддержки набора рабочих нагрузок. В такой среде важно для контроля затрат и эффективности использования поддерживать режим коллективной аренды. Для этого требуются механизмы быстрого реагирования на дефицит ресурсов и его смягчения, поскольку у спроса случаются локальные всплески. Для прогнозирования коэффициента загруженности и принятия превентивных мер может быть использована телеметрия (telemetry). В течение более длительных периодов времени приходится решать проблемы управления мощностями (capacity management). Диапазон требуемых инноваций здесь охватывает переосмысление систем баз данных в виде составных одноарендных (single-tenant) и мультиарендных микросервисов, создание прогностических моделей и их использование, разработку механизмов быстрого реагирования на требования ресурсов, динамическую реорганизацию ресурсов активных арендаторов без воздействия на рабочие нагрузки активных приложений и обеспечение изолированности арендаторов от их шумных соседей (noisy neighbor).

  • Гибридные облака. В идеальном мире необлачные (on-premise) платформы управления данных могли бы беспрепятственно использовать вычислительные ресурсы и ресурсы хранения данных, доступные в облаках «по требованию». Существует насущная потребность в определении архитектурных подходов, которые позволят локальным инфраструктурам управления данными и облачным системам использовать друг друга, вместо того, чтобы полагаться только «на облако» или «на локальные ресурсы». В условиях, когда предприятия распределяют обработку данных по локальным системам и облакам, им требуется единый уровень управления для всей инфраструктуры данных.

  • Периферия и облака (edge and cloud). IoT привел к стремительному росту числа вычислительных устройств, подключенных к облакам, в некоторых случаях только периодически. Ограниченные возможности этих устройств, характеристики их подключения (например, ограниченная пропускная способность для морских устройств, достаточная пропускная способность для устройств, подключенных к сети 5G) и их профили данных приведут к новым задачам оптимизации для распределенной обработки данных и аналитики.

Эффективное использование особенностей SaaS. Приложения категории «программное обеспечение как услуга» (Software-as-a-Service, SaaS) должны быть мультиарендными. Но, в отличие от произвольной коллективной аренды, в этом случае у каждого арендатора имеется примерно или в точности одна и та же схема базы данных (но без общих данных) и один и тот же код приложения. Один из способов поддержки мультиарендных приложений SaaS состоит в том, чтобы все арендаторы совместно использовали один экземпляр базы данных (database instance), а логика поддержки мультиарендности была вытеснена на уровень приложения. Хотя этот подход легко поддерживать с точки зрения платформы баз данных, он усложняет кастомизацию (например, эволюцию схемы), оптимизацию запросов и изоляцию от шумных соседей. Другой крайний подход заключается в создании отдельного экземпляра базы данных для каждого арендатора. Несмотря на гибкость, этот подход не является экономически эффективным, поскольку в нем не используются преимущества сходства арендаторов. Еще один подход состоит в том, чтобы паковать базы данных арендаторов в сегменты (shard), предоставляя крупным базам данных отдельные сегменты. Такая упаковка баз данных арендаторов в сегменты нетривиальна. Кроме того, выбор конкретной архитектуры могут также ограничивать соображения безопасности. Таким образом, необходимо тщательно продумать варианты построения систем в архитектуре SaaS и то, какие функциональные возможности следует поддерживать в облачной инфраструктуре баз данных, а не в стеке приложения.

Проблемы нескольких центров данных (multi data center). Облачные приложения, которые работают в нескольких центрах обработки данных, потенциально географически удаленных друг от друга, остаются ключевой проблемой как для аналитических рабочих нагрузок, так и рабочих нагрузок оперативной обработки транзакций в режиме active-active (active-active OLTP) (см. подробности в разделе 3.4). В некоторых странах имеются законы о суверенитете данных, которые запрещают перемещать данные их граждан в центр данных другой страны. Требуется дополнительная работа, чтобы понять, как эти факторы влияют на поддержку репликации и высокого уровня доступности в центрах обработки данных.

Автоматическая настройка (auto-tuning). Облачные системы баз данных должны поддерживать разнообразный набор изменяющихся во времени мультиарендных рабочих нагрузок, и ни одна конкретная настройка конфигурации не будет хорошо работать во всех случаях. Кроме того, для значительно расширившегося контингента пользователей облачных систем баз данных не хватает опытных администраторов баз данных. Исследования облачных рабочих нагрузок показывают, что во многих приложениях облачных баз данных не используются передовые методы настройки конфигурации, проектирования схем баз данных или написания кода доступа к данным. Таким образом, хотя автоматическая настройка всегда была важна, для облачных систем баз данных она имеет решающее значение. К счастью, журналы телеметрии облачных систем содержат изобильную информацию и обеспечивают большие возможности для развития механизмов автоматической настройки систем баз данных. Также для этих целей может оказаться полезным машинное обучение.

Конфиденциальные облачные вычисления. При перемещении своих данных в общедоступное облако предприятия беспокоятся об их безопасности и конфиденциальности. Это привело к появлению конфиденциальных облачных вычислений, когда данные конкретного предприятия видны только ему самому, и поэтому никакие упущения в системе безопасности облачной инфраструктуры не могут поставить под угрозу конфиденциальность этих данных. Задача состоит в том, чтобы обеспечить эту функциональную возможность с приемлемой потерей производительности. Несмотря на достигнутый прогресс в этой области, комплексный подход к поддержке конфиденциальных облачных вычислений пока еще отсутствует, и, таким образом, это направление остается плодотворной областью исследований.

Возможность совместного использования данных (data sharing). Облако предоставляет уникальную возможность для гибкого совместного использования данных. Самое главное, нам нужно определить архитектуры для разных способов совместного использования данных. В наиболее строгой форме совместное использование данных может рассматриваться как вариант многосторонних вычислений (связанных с упомянутыми выше конфиденциальными облачными вычислениями). В простейшей форме это возможность использовать общедоступные наборы данных наряду с частными наборами данных. Мы должны исследовать другие способы совместного использования данных между этими крайностями. Связанной задачей является масштабируемый гибкий поиск в наборах данных и обеспечение информации о происхождении данных, а также других метаданных, которые принципиально важны для совместного использования данных.

Минимизация зависимости облачных сервисов данных от поставщиков (vendor lock-in) и облегчение взаимодействий между несколькими облаками принесут пользу всем пользователям. Сегодня каждое общедоступное облако представляет собой закрытую экосистему (walled garden), созданную на основе разнообразных дополнительных инструментов вокруг сервисов данных. При всей важности этой работы, как бизнес, так и исследовательское сообщество прилагали до сих пор недостаточные усилия для поддержки мульти-облачных вычислений.

3.4 Механизмы управления базами данных

Как уже говорилось в данном отчете, в последние два десятилетия произошли значительные изменения, которые повлияли на архитектуру платформ управления данными. Одним из изменений, затрагивающих основные механизмы управления базами данных, является появление масштабируемых распределенных «документных систем управления данными» (document store), которые поддерживают поиск по значению ключа и обеспечивают горизонтальное масштабирование. Другое изменение – это эволюция экосистемы Hadoop в более эффективную экосистему Spark, предназначенную для выполнения заданий извлечения-преобразования-загрузки данных (extract-transform-load, ETL) и поддержки запросов в реляционном стиле за счет использования методов обработки запросов, применяемых в механизмах управления базами данных. Новые структуры данных, оптимизированные для использования в основной памяти, новые методы компиляции и генерации кода значительно повысили производительность традиционных механизмов управления базами данных. Методы управления базами данных в основной памяти стали широко использоваться как в промышленности, так и в исследованиях, часто в виде составных частей систем HTAP. Еще одним важным достижением в этой области являются широко используемые хорошо масштабируемые потоковые системы. Во всех механизмах анализа данных в настоящее время внедрено поколоночное хранение таблиц. Возобновлена работа в направлении географически распределенной репликации в облачных средах, и здесь отрасль добилась значительных успехов. Как упоминалось ранее, потребность в эластичных вычислениях в облачных средах привела к пересмотру архитектуры механизмов управления базами данных для дезагрегированного хранения данных и вычислений.

Обсудим основные темы, связанные с эволюцией механизмов управления базами данных.

Гетерогенные вычисления (heterogeneous computation). С завершением действия закона масштабирования Деннарда и появлением новых аппаратных ускорителей, призванных освободить центральные процессоры от излишних вычислений, наблюдается явная тенденция к использованию гетерогенных вычислений. Сегодня доступны графические процессоры и FPGA, причем программные средства для графических процессоров разработаны гораздо лучше, чем для FPGA. Аналогичным образом, мы видим расширение использования аппаратных средств удаленного прямого доступа к основной памяти (remote direct memory access, RDMA). Иерархия основной памяти и средств хранения данных также более разнородна, чем когда-либо прежде. Появление высокоскоростных твердотельных накопителей (solid-state drive, SSD) уже оказало значительное влияние на производительность и изменило традиционные соотношения показателей производительности между системами с хранением баз данных в основной памяти и дисковыми механизмами управления базами данных. Механизмы управления базами данных, основанные на использовании SSD нового поколения, предположительно лишат системы с хранением баз данных в основной памяти некоторых ключевых преимуществ. Кроме того, наконец-то становится общедоступной энергонезависимая основная память (non-volatile random-access memory, NVRAM), которая может оказать существенное влияние на механизмы управления базами данных из-за наличия поддержки долговременного хранения данных и низких значений задержки. Освоение этого нового мира разнородных аппаратных средств и соответствующая реорганизация механизмов управления базами данных станут одной из наиболее важных задач нашего сообщества. Нам также необходимо изучить, какой могла бы быть идеальная совместная разработка аппаратно-программных средств (co-design), которая наилучшим образом поддерживала бы механизмы управления базами данных. Например, специализированная аппаратно-программная следа могла бы быть полезна при асинхронном выполнении массового поиска запрашиваемых объектов. Таким образом, мы ожидаем, что у архитекторов систем баз данных будет иметься насыщенная программа исследований, нацеленных на использование преимуществ дезагрегации, имеющихся и ожидаемых аппаратных инноваций, а также на изучение возможностей совместно разработанных аппаратно-программных средств.

Озера данных и современные приложения хранилищ данных. Потребности традиционных приложений хранилищ данных расширились. Этим приложениям требуется использовать данные из различных источников данных. Им нужно быстрее преобразовывать данные и выполнять их сложный анализ. Эти новые требования оказывают глубокое влияние на разработку базовых механизмов управления базами данных, поддерживающих аналитические приложения. Сообщество находится в процессе перехода от классических хранилищ данных к архитектуре, ориентированной на использование озер данных. Архитектура озер данных, получившая распространение в общедоступных облачных средах благодаря широкой доступности масштабируемого недорогого хранилища BLOB-объектов (BLOB-storage), в равной степени применима и для локальных систем. В отличие от традиционной ситуации, когда данные попадают в базу данных OLTP и затем перемещаются в хранилище данных посредством процесса ETL, возможно, поддерживаемого инфраструктурой обработки больших данных, например, Spark, озеро данных представляет собой гибкий репозиторий, способный принимать различные объекты данных. Впоследствии различные вычислительные механизмы могут работать с этими данными, курировать их или выполнять сложные SQL-запросы, сохраняя результаты в том же озере данных или отправляя их в другие работающие системы. Таким образом, озера данных являются примером дезагрегированной архитектуры. Одной из характерных проблем озер данных является масштабируемое обнаружение данных. Поэтому в озерах данных первостепенное значение имеет профилирование данных (data profiling), которое обеспечивает получение статистических характеристик данных. Для озер данных профилирование данных является сложной задачей, поскольку у инструмента профилирования должно иметься низкое значение задержки, несмотря на потребность предоставления статистической сводки для очень больших, разнородных и, возможно, полуструктурированных наборов данных. К числу других проблем относится быстрый поиск всех данных, относящихся к данной задаче, например, выявление данных, которые можно соединить с другими уместными наборами данных после надлежащих преобразований.

Использование приближений. Поскольку объемы данных продолжают расти, мы должны искать методы, которые уменьшают задержки или увеличивают пропускную способность обработки запросов. Например, использование приближенных ответов на запросы к озерам данных для быстрой поэтапной визуализации (progressive visualization)[2] этих ответов может помочь получить представление о данных при исследовательском анализе данных (exploratory data analysis). Уже получила широкое распространение технология эскизов данных (data sketch), являющихся классическим примером эффективных приближений. Еще одним инструментом, который можно использовать для снижения затрат на обработку запросов, является сэмплинг (sampling). Однако поддержка сэмплинга в современных системах больших данных довольно ограничена и не позволяет использовать все возможности языков запросов, в частности, SQL. Наше сообщество проделало основательную работу в области приблизительной обработки запросов (approximate query processing)[3], но нам требуется найти способ представления имеющихся методов в удобной для программистов форме с четкой семантикой.

Распределенные транзакции. Системы управления данными все чаще распределяются по нескольким компьютерам как в пределах одного региона, так и в нескольких географических регионах. Это возродило интерес в индустрии и научном сообществе к проблемам обработки распределенных транзакций. Возрастающая сложность и изменчивость сценариев отказов в сочетании с увеличивающими коммуникационными задержками и изменчивостью производительности в распределенных архитектурах привели к появлению различных компромиссов между требованиями согласованности, уровня изоляции, доступности, величины задержки и пропускной способности в условиях конкуренции, эластичности и масштабируемости. В настоящее время ведутся дебаты между представителями двух направлений. (1) Распределенные транзакции трудно обрабатывать c должным масштабированием, сохраняя высокую пропускную способностью, высокий уровень доступности и низкие значения задержки, не отказываясь от некоторых традиционных транзакционных гарантий. Поэтому гарантии согласованности и изоляции понижаются за счет повышения уровня сложности разработки приложений. (2) Сложность реализации бездефектных приложений чрезвычайно высока, если система не гарантирует строгую согласованность и изоляцию транзакций. Следовательно, система должна обеспечивать наилучшие показатели пропускной способности, доступности и задержки, которые можно обеспечить без ущерба для гарантий корректности. Этот спор, по всей видимости, не будет полностью завершен в ближайшее время, и отрасль будет предлагать системы, соответствующие каждой из этих точек зрения. Однако очень важно, чтобы лучше выявлялись и количественно оценивались на практике ошибки и ограничения приложений, возникающие из-за более слабых системных гарантий, а также чтобы были созданы инструменты, помогающие разработчикам приложений на основе обоих типов систем удовлетворять требования корректности и производительности.

Использование машинного обучения. Последние достижения в области ML побудили наше сообщество к размышлениям о том, как можно было бы продвинуться в решении некоторых сложных проблем механизмов управления данными с использованием ML. Наиболее очевидные такие проблемы имеются в автоматической настройке. Например, мы можем систематически заменять «магические числа» в системах баз данных моделями обучения, управляемыми данными, и использовать их для автоматической настройки конфигураций систем. ML также дает новую надежду на прогресс в области оптимизации запросов, в которой за последние два десятилетия наблюдались лишь незначительные продвижения. Хотя в принципе с помощью ML потенциально может быть усовершенствован почти любой компонент системы баз данных, предпосылкой успеха является наличие ответов на некоторые ключевые вопросы, в частности, доступность обучающих данных, продуманный конвейер разработки программного обеспечения для поддержки компонента ML (отладка этого программного обеспечения, как известно, затруднительна) и наличие защитных ограждений (guard-rails), чтобы при отклонении тестовых данных или запросов от обучающих данных и запросов качество системы падало не слишком резко.

Поддержка машинного обучения в механизмах управления базами данных. Как кратко обсуждалось в разд. 3.1, современные рабочие нагрузки механизмов управления данными включают ML. Это привносит новое важное требование к механизмам управления базами данных. Мы должны безотлагательно обратиться к проблеме эффективной поддержки ML «внутри баз данных». Сегодня это достигается за счет использования традиционных механизмов расширяемости баз данных. Однако, по мере того как все более популярными и крупными становятся модели DNN, для поддержки эффективного вывода и обучения требуется, чтобы в механизмах управления базами данных использовались разнородные аппаратные средства и поддерживались популярные среды программирования ML. Эта эволюция все еще находится на ранней стадии. Архитекторы ядра СУБД должны работать вместе с архитекторами, отвечающими за построение инфраструктуры ML с использованием FPGA, графических процессоров и специализированных ASIC.

Эталонное тестирование (benchmarking). На протяжении многих лет эталонные тестовые наборы (benchmark) чрезвычайно способствовали продвижению индустрии баз данных и сообщества исследователей баз данных. Традиционные эталонные тестовые наборы (например, TPC-E, TPC-DS, TPC-H), разработанные сообществом баз данных, полезны, но они не отражают всю широту и глубину нашей области. Мы должны подтвердить свое намерение развивать эталонное тестирование новых сценариев приложений и архитектур ядра СУБД. Например, без разработки соответствующих эталонных тестовых наборов и наборов данных будет невозможно честно сравнивать традиционные архитектуры баз данных и их модификации на основе использования ML. Сообществу нужны новые тестовые наборы, отражающие специфику современных рабочих нагрузок, в частности, в отношении измерений скорости и разнообразия (velocity and variety) приложений больших данных, например, потоковых сценариев, данных с перекосом (data skew), рабочих нагрузок с типичными преобразованиями данных и обработки новых типов данных, таких как как видео. Несмотря на появление в этой области некоторых тестовых наборов, многое еще предстоит сделать. Тесно связанной проблемой является низкий уровень представления оценок эффективности в публикациях. При выборе рабочих нагрузок, баз данных и параметров часто не хватает строгости. Более того, обычно предоставляются только упрощенные совокупные (средние) значения показателей эффективности, а важные дополнительные показатели, например, отклонения от средних значений, не раскрываются.

Стандарт SQL. Хотя стандарт SQL оказывает огромное положительное влияние на экосистему управления базами данных, реализации SQL в разных системах данных по-прежнему различаются по своей семантике. Наше сообщество должно продолжать стремиться к тому, чтобы сделать SQL истинным стандартом. В то же время возможностей SQL может не хватать для поддержки приложений науки о данных и рабочих нагрузок ML. Поэтому нам необходимо исследовать системы, в которых реляционная и линейная алгебры объединяются в более развитой парадигме запросов, потенциально в форме расширений SQL[4]. В нашей программе исследований должны оставаться две заветные цели. Во-первых, мы должны всегда исследовать любые новые идеи, направленные на преодоление потери соответствия (impedance mismatch) между разработкой приложений и написанием запросов к базам данных. Во-вторых, мы должны продолжать искать способы сделать системы баз данных менее жесткими (допуская, например, гибкую эволюцию схемы), не жертвуя при этом их производительностью.

4. Сообщество

Сообщество баз данных функционирует нормально со стабильным количеством заявок на участие в наших конференциях. Наши ведущие конференции посещают научные работники и инженеры из производственных предприятий. Тем не менее, как обсуждается ниже, у сообщества по-прежнему имеются большие возможности для совершенствования.

Сквозные решения в руках пользователей. Чтобы увеличить свое влияние, сообщество исследователей баз данных должно уделять больше внимания разработке (или участию в создании) полнофункциональных систем, а также использовать эти системы и инструменты для оказания помощи реальным пользователям. Встраивание алгоритмических новшеств нашего сообщества в работающие системы значительно увеличит влияние и охват этих инноваций. Более того, взаимодействуя с реальными пользователями, сообщество повысит свою отдачу, значимость и уровень понимания быстро меняющихся проблем управления данными.

Открытый исходный код и облачные сервисы. Для достижения высокой отдачи нашему сообществу следует разрабатывать инструменты, которые можно легко применять. Так оно и будет, если эти инструменты входят в существующие популярные экосистемы инструментов с открытыми исходными кодами или представляются в виде простых в использовании облачных сервисов. В частности, важным подходом, позволяющим нашему сообществу оказывать влияние, является участие в проектах по созданию крупных систем с открытым исходным кодом. Такие системы ускоряют инновации, потому что в них можно легко внедрять новые алгоритмические идеи. К тому же, они становятся зрелыми инструментами с большими сообществами разработчиков, которым легче поддерживать реальных пользователей. Недавние примеры таких систем, которые вышли из сообщества баз данных или были разработаны при значительном его участии, включают Apache Spark, Apache Flink и Apache Kafka.

Программная экосистема науки о данных. Сообщество баз данных должно более энергично интегрировать исследования в области баз данных с экосистемой науки о данных (например, Jupyter Notebook, Python). Методы баз данных для интеграции, очистки, обработки и визуализации данных должны легко вызываться из скриптов Python. Сообщество также могло бы разработать более элегантные API, масштабируемые более естественным образом и лучше интегрирующие реляционную и линейную алгебры. Эти инструменты должны хорошо работать в любом масштабе, а не только для решения самых крупных проблем. Пользователи должны иметь возможность опробовать инструменты в небольших масштабах на своих ноутбуках или в облачной среде и не должны вынуждаться вносить существенные изменения в свой код по мере роста потребностей в данных и вычислениях.

Инновации в сообществе. Сообщество баз данных всегда обновляло свой подход к проведению конференций, например, установило несколько предельных сроков подачи докладов на разные конференции в одном и том же году, изменило порядок назначения рецензентов представленных докладов и их рецензирования, впервые внедрило требование оценки воспроизводимости результатов принимаемых докладов, расширило программы конференций, включив в них тьюториалы. Важно, чтобы сообщество оставалось новаторским и продолжало совершенствовать процессы отбора докладов. В последние годы появилось несколько факторов. Во-первых, исследователи баз данных теперь имеют огромные возможности для выполнения амбициозных исследовательских проектов, создания крупных центров и захватывающего сотрудничества с индустрией. В результате многие исследователи слишком заняты, чтобы участвовать в программных комитетах даже наших основных конференций так часто, как им хотелось бы, потому что эти люди и так работают на пределе возможностей. Нам нужно найти решение этой проблемы, потому что мы хотим, чтобы все члены нашего сообщества участвовали в процессе рецензирования. Во-вторых, продолжает оставаться проблемой воспроизводимость результатов, описываемых в докладах. Сообщество опробовало много приемов, побуждающих исследователей открывать исходные коды своих разработок и обеспечивать воспроизводимость результатов, но вокруг этого продолжается напряженная борьба. Сообщество должно продолжать искать новые идеи для решения этой проблемы. В-третьих, нынешний процесс рецензирования и мнение большинства рецензентов приводят к тому, что «синтаксически корректными» признаются алгоритмические исследований с четким определением базового уровня технологии, которую улучшает предлагаемый алгоритм, и некоторые члены сообщества недостаточно высоко оценивают другие работы, описывающие, например, инновационные системы, приложения, эксперименты и анализ их результатов, примеры внедрения и т.д. Один из способов улучшить ситуацию заключается в том, чтобы более решительно подчеркивать в рецензиях уровень «возможного воздействия» результатов, описываемых в рецензируемых докладах.

Влияние на университеты. Появление науки о данных и энтузиазм по поводу образования в этой области, включая основную или побочную специализацию студентов, направления исследований при подготовке магистерских диссертаций или специализацию в рамках существующего основного направления образования, обеспечивают сообществу баз данных большие возможности оказывать широкое воздействие на образование в наших университетах. Наука о данных является междисциплинарной. Она включает в себя компоненты машинного обучения, взаимодействия человека и компьютера, статистики, этики, права, визуализации данных, предметных областей и, конечно же, управления данными. Как обсуждалось в разд. 3.1 настоящего отчета, для науки о данных весьма актуальны многие аспекты управления данными. Чтобы научиться поддерживать конвейер извлечения знаний из данных, студентам всех дисциплин (не только компьютерной науки) нужно изучать технологию, разработанную нашим сообществом на протяжении многих лет. Таким образом, специалисты в области баз данных являются естественными участниками процессов обучения науке о данных и разработки соответствующих учебных программ. Соответственно, профессорско-преподавательский состав, специализирующийся в области баз данных, должен участвовать в дискуссиях, определяющих программу обучения науке о данных в своих университетах.

5. Взгляд в будущее

Невозможно полностью отразить захватывающие обсуждения, которые мы провели на нашей встрече осенью 2018 года. В данном отчете кратко описаны некоторые ключевые рекомендации и соображения участников этой встречи. Доступную для скачивания копию этого отчета, а также некоторые дополнительные материалы, использованные на встрече, можно найти на веб-сайте мероприятия [1].

За пределами кратких рекомендаций, содержащихся в этом отчете, исследователям в области баз данных следует приглядываться к трендам технологий и приложений. Многое изменилось уже после нашей встречи осенью 2018 года. Каждый появившийся новый механизм представляет потенциальную возможность расширить возможности управления данными (например, блокчейн, квантовые вычисления), а каждый новый сценарий использования – это потенциальная прикладная область, в которой может помочь управление данными (например, автомобили с автоматическим управлением, выявление поддельных новостей (fake news)).

На нынешнем этапе богатой истории воздействий на исследования и промышленность, которые оказывает сообщество баз данных, нам очень повезло, что имеется много интересных направлений исследований в области науки данных, машинного обучения, управления данными, а также новых архитектур облачных систем и механизмов управления данными. Мы должны сосредоточиться на создании на основе наших исследований более результативных программных систем с открытыми исходными кодами и облачных сервисов, а также лучшей интеграции с существующим стеком и инструментами науки о данных. Мы также должны пересмотреть критерии оценки статей, подаваемых на наши конференции, ориентируясь на достижение максимального воздействия.

6. Благодарности

Встреча представителей сообщества баз данных в Сиэтле поддерживалась финансовыми средствами компаний Google, Megagon Labs и Microsoft Corporation.

Список литературы

[1] The Database Research Self-Assessment Meeting 2018. https://db.cs.washington.edu/events/other/2018/database_self_assessment_2018.html, 2018.

[2] D. Abadi, R. Agrawal, A. Ailamaki, M. Balazinska, P.A. Bernstein, M.J. Carey, S. Chaudhuri, J. Dean, A. Doan, M.J. Franklin, J. Gehrke, L.M. Haas, A.Y. Halevy, J.M. Hellerstein, Y.E. Ioannidis, H.V. Jagadish, D.Kossmann, S. Madden, S. Mehrotra, T. Milo, J.F. Naughton, R. Ramakrishnan, V. Markl, C. Olston, B.C. Ooi, C. Ré, D. Suciu, M. Stonebraker, T. Walter, and J. Widom. The Beckman Report on Database Research. Communications of the ACM, vol. 59, issue 2, 2016, pp. 92-99.

[3] P. Bernstein, U. Dayal, D. DeWitt, D. Gawlick, J. Gray, M. Jarke, B. Lindsay, P. Lockemann, D. Maier, E. Neuhold, A. Reuter, L. Rowe, H.-J. Schek, J. Schmidt, M. Schrefl, and M. Stonebraker. Future Directions in DBMS Research – The Laguna Beach Participants. ACM SIGMOD Record, vol. 18, issue 1, March 1989, pp. 17-26.

  1. Тьюринговские премии:

    1973, Чарльз Бахман (Charles William Bachman, 1924-2017), За его выдающийся вклад в технологии баз данных;

    1981, Эдгар Кодд (Edgar Frank Codd, 1923-2003), За его фундаментальный и продолжительный вклад в теорию и практику систем управления базами данных, в особенности реляционного типа;

    1998, Джим Грей (James Nicholas "Jim" Gray, 1944-2012, declared dead in absentia), За основополагающие идеи в области баз данных, исследования обработки транзакций и техническое лидерство в реализации систем;

    2014, Майкл Стоунбрейкер (Michael Stonebraker, 1943), За фундаментальный вклад в принципы и практики, лежащие в основаниях современных систем управления базами данных.

    Премии ACM Software System:

    1986, System R, Дональд Чемберлин (Donald Chamberlin), Джим Грей (Jim Gray), Рэймонд Лори (Raymond Lorie), Джанфранко Путцолу (Gianfranco Putzolu), Патриция Селинджер (Patricia Selinger), Ирвинг Трейгер (Irving Traiger);

    1988, INGRES, Джеральд Хельд (Gerald Held), Майкл Стоунбрейкер (Michael Stonebraker), Юджин Вонг (Eugene Wong);

    2008, Gamma Parallel Database System, Дэвид ДеВитт (David DeWitt), Роберт Гербер (Robert Gerber), Мурали Кришна (Murali Krishna), Донован Шнайдер (Donovan Schneider), Шахрам Гандехаризаде (Shahram Ghandeharizadeh), Гетц Грефе (Goetz Graefe), Майкл Хейтенс (Michael Heytens), Хуэй-я Сяо (Hui-I Hsiao), Джеффри Нотон (Jeffrey Naughton), Ануп Шарма (Anoop Sharma).

  2. E. Zgraggen, A. Galakatos, A. Crotty, J. Fekete and T. Kraska. How Progressive Visualizations Affect Exploratory Analysis. IEEE Transactions on Visualization and Computer Graphics, vol. 23, no. 8, 2017, pp. 1977-1987

  3. Surajit Chaudhuri, Bolin Ding, Srikanth Kandula. Approximate Query Processing: No Silver Bullet. In. Proc. of the ACM SIGMOD International Conference on Management of Data, 2017, pp. 511-519

  4. Surajit Chaudhuri. To do or not to do: extending SQL with integer linear programming? Communications of the ACM, vol. 62, issue 2, 2019, p. 107

Скидка до 20% на услуги дата-центра. Аренда серверной стойки. Colocation от 1U!

Миграция в облако #SotelCloud. Виртуальный сервер в облаке. Выбрать конфигурацию на сайте!

Виртуальная АТС для вашего бизнеса. Приветственные бонусы для новых клиентов!

Виртуальные VPS серверы в РФ и ЕС

Dedicated серверы в РФ и ЕС

По промокоду CITFORUM скидка 30% на заказ VPS\VDS

VPS/VDS серверы. 30 локаций на выбор

Серверы VPS/VDS с большим диском

Хорошие условия для реселлеров

4VPS.SU - VPS в 17-ти странах

2Gbit/s безлимит

Современное железо!

Новости мира IT:

Архив новостей

IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Информация для рекламодателей PR-акции, размещение рекламы — adv@citforum.ru,
тел. +7 495 7861149
Пресс-релизы — pr@citforum.ru
Обратная связь
Информация для авторов
Rambler's Top100 TopList This Web server launched on February 24, 1997
Copyright © 1997-2000 CIT, © 2001-2019 CIT Forum
Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...