Бекманский отчет об исследованиях в области баз данных

2017 г.

Бекманский отчет об исследованиях в области баз данных

Дэниел Абади, Ракеш Агравал, Анастасия Айламаки, Магдалена Балазинска, Филип А. Бернстейн, Майкл Дж. Кэри, Сурадждит Чаудхари, Джеффри Дин, Анхай Доан, Майкл Дж. Франклин, Йоханнес Герке, Лаура М. Хаас, Элон И. Хэлеви, Джозеф М. Хеллерштейн, Янис Е. Ионнидис, Х.В. Ягадиш, Дональд Коссманн, Самуэль Мэдден, Шарад Мехротра, Това Мило, Джеффри Нотон, Раджу Рамакришнан, Волкер Маркл, Кристофер Олстон, Бен Чин Ой, Кристофер Ре, Дан Сучиу, Майкл Стоунбрейкер, Тодд Валтер, Джерифер Вайдом.

Перевод: Сергей Кузнецов

Оригинал: The Beckman Report on Database Research. Daniel Abadi, Rakesh Agrawal, Anastasia Ailamaki, Magdalena Balazinska, Philip A. Bernstein, Michael J. Carey, Surajit Chaudhuri, Jeffrey Dean, AnHai Doan, Michael J. Franklin, Johannes Gehrke, Laura M. Haas, Alon Y. Halevy, Joseph M. Hellerstein, Yannis E. Ioannidis, H.V. Jagadish, Donald Kossmann, Samuel Madden, Sharad Mehrotra, Tova Milo, Jeffrey F. Naughton, Raghu Ramakrishnan, Volker Markl, Christopher Olston, Beng Chin Ooi, Christopher Re, Dan Suciu, Michael Stonebraker, Todd Walter, Jennifer Widom. ACM SIGMOD Record, volume 43, issue 3, September 2014, pages 61-70.

Аннотация

Каждые несколько лет группа исследователей в области баз данных собирается для обсуждения состояния исследований в области баз данных, влияния результатов этих исследований на практику, важных новых направлений исследований. В данном отчете подводятся итоги дискуссий, состоявшихся во время восьмой такой встречи, которая проходила 14-15 октября 2013 г. в г. Ирвине, шт. Калифорния. В отчете отмечается, что Большие Данные в наше время становятся одной из наиболее важных проблем, и что у сообщества баз данных имеются уникальные возможности для ее решения, огромный потенциал для революционного воздействия. С этой целью в отчете рекомендуется обратить существенно большее внимание на пять областей исследований:

масштабируемые инфраструктуры больших/быстро поступающих данных;
преодоление разнородностей ландшафта управления данными;
сквозные обработка и интерпретация данных;
облачные службы;
управление различными ролями людей в жизненном цикле данных.

1. Введение

Группа исследователей в области баз данных периодически встречается для обсуждения состояния дел в этой области и определения основных перспективных направлений исследований. Предыдущие встречи проходили в 1989 [BDD+89], 1990 [SSU91], 1995 [SSU96], 1996 [SZ96], 1998 [BBC+], 2003 [AAB+05] и 2008 [AAB+09] гг. Продолжая эту традицию, двадцать восемь исследователей и два приглашенных докладчика встретились в октябре 2013 г. в Бекманском центре (Beckman Center) в кампусе Калифорнийского университета в Ирвине для проведения двухдневных обсуждений. Число участников было ограничено тридцатью исследователями, так что встреча была достаточно интерактивной.

В этом году участники встречи быстро установили, что определяющей проблемой нашего времени являются Большие Данные. Большие Данные появились в результате слияния трех основных тенденций. Во-первых, стало гораздо дешевле генерировать самые разнообразные данные — из-за наличия недорогих устройств хранения данных, сенсоров, умных устройств, социального программного обеспечения, многопользовательских игр и зарождающегося Интернета Вещей, связывающего дома, автомашины, бытовые приборы и другие устройства. Во-вторых, из-за достижений в областях многоядерных процессоров, твердотельных устройств хранения данных, облачных вычислений и программного обеспечения с открытыми исходными текстами стало гораздо дешевле обрабатывать данные большого размера. Наконец, имеется тенденция, называемая демократизацией данных, которая означает, что не только администраторы и разработчики, но и многие другие люди тесно привлекаются к процессу генерации, обработки и потребления данных: лица, принимающие решения, ученые из различных научных областей, пользователи приложений, журналисты, краудворкеры и частные дица. В некотором смысле, весь мир осознал важность того, за что выступало и что делало сообщество баз данных.

Новая эпоха Больших Данных вовлекла многие сообщества в «игру управления данными». Имеются серьезные работы этих сообществ с целью разработки собственных решений для управления данными, таких как Hadoop и NoSQL. Многие из этих ранних решений не были основаны на принципах систем управления базами данных (СУБД). Однако, по мере того как эти решения набирали популярность и прилагались к большему числу сценариев управления данными, важность принципов СУБД во все большей степени осознавалась разработчиками, и они начинали использовать их в своих решениях. Например, система Hive, управляющая данными в декларативном стиле, стала намного популярнее, чем MapReduce; новые варианты реализации Hive напоминают параллельные СУБД; средства категории NoSQL развиваются в сторону использования языков высокого уровня и ACID-транзакций; и появляется новое поколение систем масштаба центра данных, напоминающих массивные системы управления базами данных и строящихся поверх хранилищ «ключ-значение» (например, система F1, управляющая рекламной инфраструктурой в Google).

Так что для сообщества баз данных наступает захватывающее время. Мы находимся прямо в центре революции Больших Данных. Мир признал концепцию общества, управляемого данными, и другие сообщества признают принципы СУБД. Являясь сообществом, которое в течение 45 лет раздвигало границы обработки больших наборов данных, сообщество баз данных может помочь двигаться вперед миру, управляемому данными, основываясь на собственных результатах и опыте. Тем самым, у нашего сообщества имеются уникальные возможности для решения проблемы Больших Данных. Имеется огромный потенциал для оказания решающего воздействия.

Но перед нами также стоят и огромные проблемы. Требования Больших Данных заставляют отказаться от многих привычных способов проектирования, разработки и внедрения решений управления данными. Основными характеристиками Больших Данных являются объем, скорость поступления и разнообразие (volume, velocity, veriety). Над проблемами объема и скорости наше сообщество работает десятилетия; разработанные решения критически важны практически для любого предприятия по всему Земному шару. Однако Большие Данных привносят новый уровень масштабности, который вынуждает нас радикально пересмотреть существующие решения. Разнообразие данных приводит к потребности интеграции и анализа данных с изменяющимися форматами и качеством, поступающих из различных источников. Над этой темой сообщество баз данных также работает много лет. Однако переход от необработанных данных к практически важным знаниям остается чрезвычайно трудоемким делом. Наличие Больших Данных усугубляет эту проблему, в результате чего образуется узкое место в конвейере обработки данных. Следовательно, требуется интенсивная работа для создания сквозных решений, которые обладают характеристики масштабируемости, простоты использования и минимизации требуемой ручной работы. Большие Данные приводят к появлению широкого разнообразия аппаратных инфраструктур; инфраструктур, языков и систем обработки данных; абстракций программирования; категорий, уровня подготовки и предпочтений пользователей. Разработка решений управления данными, способных справиться с таким разнообразием, является сложной проблемой.

Преодолевая трудности «трех V», многие массивно масштабируемые приложения Больших Данных будут разворачиваться в облачных инфраструктурах (публичных и частных). Многие приложения будут включать людей с целью, например, оказания помощи системе при решении семантических проблем, которые все еще не поддаются существующим автоматическим решениям. Масштабность привлечения людей может варьироваться от одного эксперта в соответствующей предметной области до групп работников, всего сообщества пользователей, а иногда и всего взаимосвязанного мира (например, Википедии). Эти новые тенденции вызывают новые и важные исследовательские проблемы в сообществе баз данных.

Наконец, Большие Данные приводят к появлению важных проблем внутри самого сообщества баз данных. Требуется пересмотреть подходы, используемые при обучении технологии управления данными, переосмыслить культуру исследований, учесть становление науки о данных (data science) как отдельной научной дисциплины. Другие аспекты революции Больших Данных, такие как влияние на конфиденциальность, новые идеи о валидации данных и владении ими, а также возникающая экономика данных (data economy) также заслуживают изучения и могут влиять на учебные программы и тематику исследований. Однако в этом отчете мы не затрагиваем подобные аспекты.

В течение двух дней Бекманской встречи участники активно обсуждали упомянутые темы. В разд. 2 и 3 приводятся итоги обсуждений проблем исследований и самого сообщества соответственно. Разд. 4 заключает отчет.

2. Исследовательские проблемы

На встрече были выявлены пять проблем Больших Данных: масштабируемая инфраструктура больших/быстро поступающих данных; преодоление разнородностей ландшафта управления данными; сквозные управление и понимание данных; облачные службы и управление различными ролями людей в жизненном цикле данных. Три первые проблемы затрагивают аспекты объема, скорости и разнообразия Больших Данных, в то время как две последние проблемы касаются внедрения приложений Больших Данных в облачной инфраструктуре и управления участием людей в этих приложениях.

Эти проблемы Больших Данных не должны решаться за счет отказа от других ведущихся исследовательских работ. В последние годы наше сообщество укрепило свои позиции в области РСУБД основало много новых направлений исследований в области управления данными в коллаборации с другими сообществами (например, AI (artificial intelligence — искусственный интеллект), KDD (knowledge discovery and data mining — обнаружение знаний и интеллектуальный анализ данных), HCI (Human Computer Interaction — человеко-машинное взаимодействие) и электронная наука). В этих бурно развивающихся направлениях требуется продолжать исследования. Кроме того, к важным проблемам, неоднократно упоминавшимся на встрече, относятся безопасность, конфиденциальность данных, способы применения данных и расчет стоимости, установление подлинности данных, социальные и мобильные данные, пространственно-временные данные, персонализация и контекстуализация, ограничения энергопотребления и управление научными данными. Многие из этих проблем пересекаются с проблемами, упомянутыми ранее, и с ними связаны те же аспекты.

2.1 Масштабируемые инфраструктуры больших/быстро поступающих данных

В течение долгого времени наше сообщество разрабатывает системы для обработки данных, объемы которых превышают возможности имеющейся аппаратуры. Аппаратура продолжает развиваться, появляются новые технологии построения процессоров, устройств хранения данных и сетей. Мы должны продолжать бороться с проблемой построения масштабируемых систем для управления более крупными наборами данных, поступающих с увеличивающейся скоростью, используя эти новые, более совершенные технологии.

В мире баз данных одним из основных достижений является технология параллельной обработки крупных структурированных наборов данных; на основе этой технологии было произведено несколько поколений коммерческих SQL-ориентированных продуктов, широко используемых на предприятиях. В области распределенных вычислений достигнуты успехи в направлении масштабирования обработки в меньшей степени структурированных данных с использованием серийных ненадежных машин и моделей программирования с ограничениями, таких как MapReduce, За этим последовало развитие языков более высокого уровня, инспирированных декларативными языками баз данных, такими как языки реляционной алгебры и SQL. Эти языки базируются на ранее разработанных моделях с ограничениями, что позволяет использовать масштабируемые платформы Больших Данных большему числу разработчиков приложений. Сегодня платформы с открытыми исходными текстами, такие как Hadoop с его моделью программирования MapReduce, крупномасштабной распределенной файловой системой (HDFS) и языками высокого уровня (например, Pig и Hive), можно рассматривать как оперативно появившееся решение для обработки менее структурированных данных даже в мире традиционных предприятий.

С учетом энтузиазма, с которым пользователи отнеслись к декларативным языкам обработки Больших Данных, все более очевидной становится потребность в более общих методах обработки запросов к данным в стиле, принятом в мире баз данных. Для обработки данных сверхбольшого объема с допустимым временем отклика потребуется очень высокий уровень параллелизма. В эффективных стратегиях обработки запросов потребуется полностью использовать возможности крупных кластеров или многоядерных процессоров, обеспечивая и вертикальное, и горизонтальное масштабирование для удовлетворения потребностей приложений. Это порождает проблемы не только в направлениях оптимизации и выполнения запросов, но также и в направлении контроля выполнения (progress monitoring), чтобы пользователь мог диагностировать запросы и управлять запросами, которые выполняются слишком медленно или потребляют слишком много ресурсов. Для адаптации с характеристикам новых данных и сокращения расходов на перемещение данных на разных стадиях их анализа потребуется интеграция подсистем обработки запросов и подсистем взятия образцов данных (data sampling), интеллектуального анализа данных (data mining) и вычислений на основе машинного обучения (machine learning computation).

В масштабах центров данных соотношение скоростей последовательной обработки данных и их пересылки изменяется с появлением более быстрых сетей, сетей с полной пропускной возможностью сечения (full bisection bandwidth network) между серверами и возможностей удаленного прямого доступа к основной памяти (direct memory access, DMA). Нужно принимать во внимание не только кластеры многоядерных процессоров, но и наличие более специализированных процессоров. Коммерчески успешные машины баз данных демонстрируют высокий потенциал совместных аппаратно-программных разработок для управления данными. Исследователям следует продолжать изучать способы использования специализированных процессоров, например, графических процессоров (graphics processing unit, GPU), программируемых логических интегральных схем (field-programmable gate array, FPGA) и специализированных интегральных схем (application-specific integrated circuit, ASIC) для обработки очень крупных наборов данных. Эти изменения технологий коммуникаций и обработки данных потребуют пересмотра параллельных и распределенных алгоритмов обработки запросов, которые традиционно ориентированы на более однородные аппаратные среды.

Если говорить об устройствах хранения данных, исследовательское сообщество баз данных должно учиться применять появляющиеся технологии основной памяти и хранения данных. По сравнению с массово используемыми магнитными дисками твердотельные диски дороже в расчете на сохраняемый гигабайт данных, но дешевле в расчете на операцию ввода/вывода. Разрабатываются различные технологии энергонезависимой основной памяти со случайным доступом (non-volatile random-access memory, NV-RAM). Все они обладают разными характеристиками скорости, энергопотребления и износостойкости. Нужно принимать во внимание как архитектуры с подключением устройств хранения данных к серверам, так и архитектуры с сетевым подключением подобных устройств. В распределенных файловых системах, таких как HDFS, устройства подключаются к серверам, но совместно доступны по сети: это гибрид двух указанных выше подходов. При выборе наилучшего способа использования этих разнообразных технологий приходится отвечать на много вопросов, заставляющих вспомнить имевшиеся в прошлом споры относительно преимуществ и недостатков подходов с общей памятью (shared memory), общими дисками (shared disk) и отсутствием общих ресурсов (shared nothing); в контексте традиционных параллельных реляционных систем эта тема считалась «закрытой».

Для обработки данных, поступающих со все возрастающими скоростями, потребуются новые масштабируемые технологии приема и обработки потоков данных. Потребуется тщательная настройка алгоритмов в соответствии с особенностями поведения аппаратуры, например, для того чтобы справиться с неоднородным доступом к основной памяти (non-uniform memory access, NUMA) и ограниченной скоростью передачи данных между уровнями иерархий основной памяти. Кроме того, при очень высокой скорости некоторых источников данных, часто при небольшой плотности данных потребуется обрабатывать некоторые данные в реальном времени без сохранения их в полном объеме. Для таких данных скорее потребуется сохранение образцов или агрегатов, чтобы можно было выдавать ответы на некоторые категории запросов, поступающих, когда данные перестают быть доступными. Для подобных данных все более важной будет непрерывная обработка запросов (progressive query processing) для обеспечения инкрементных и частных результатов с точностью, возрастающей по мере прохождения данных через конвейер.

Для данных, которые сохраняются, но обрабатываются не более одного раза, мало смысла использовать средства хранения и индексации системы баз данных. Для таких данных больший смысл может иметь использование «схемы при чтении» (schema-on-read), чем традиционной «схемы при записи» (schema-on-read), которая приводит к излишним накладным расходам во время приема данных. В это время может быть желательно просто сбросить в систему хранения просто набор битов, возвращаясь к ним, когда и если кому-либо понадобиться их проинтерпретировать. К тому же, целесообразность способа интерпретации данных, получаемых в ответ на заданный запрос, может зависеть от этого запроса и поэтому может быть неизвестна во время записи данных. Raw-файлы (массивы символов или байтов) служат наименьшим общим знаменателем для взаимодействия разнообразных систем, используемых сегодня для хранения данных. В результате нам требуются инструментальные средства и языки, помогающие работать со схемами по чтению, а также подсистемы обработки запросов, эффективно работающие с raw-файлами.

Кроме существенно расширившихся требований к анализу данных, сегодняшний мир выставляет новые требования к сбору, обновлению данных и поддержке быстрого (но простого) доступа к ним. Стремление к обеспечению высоких скоростей сбора и обновления данных, не имеющих схемы, привело к разработке систем категории NoSQL. На сегодняшнем ландшафте платформ Больших Данных имеется ряд таких систем, почти у каждой из которых имеется своя модель транзакций и согласованности данных. В большинстве систем обеспечиваются только базовые возможности доступа к данным, а также слабые гарантии атомарности и изолированности, что затрудняет их использование для разработки надежных приложений. В результате развивается новый класс систем Больших Данных, поддерживающих полноценные возможности в стиле систем баз данных и опирающихся на хранилища «ключ-значение» или аналогичные подложки. Для некоторых приложений управляемые и обновляемые хранимые данные служат всего лишь «источником истины» для предприятий. В других случаях (например, в Интернете Вещей) в данных должны отражаться события и изменения, происходящие в окружающем мире, чтобы приложения могли реагировать на важные события или выявлять ситуации, представляющие интерес. Эти обстоятельства создают для сообщества баз данных благоприятную возможность пересмотреть имеющиеся представления об актуальности и согласованности данных и разработать новые модели и методы для разработки надежных приложений.

Наконец, показателями масштабируемости должны служить не только объемы данных и скорость выполнения запросов, но и совокупная стоимость владения (включая управление, использование энергии и т.д.), скорость сквозной обработки (т.е. время от поступления сырых данных до потенциального получения аналитической информации), уязвимость (например, возможность продолжать обработку данных в случае возникновения ошибок при разборе данных) и простота использования (особенно для начинающих пользователей). Для оценки результатов при наличии этого расширенного набора показателей потребуются новые типы бенчмарков.

2.2 Разнородность ландшафта управления данными

Кроме огромных объемов данных и высоких скоростей их поступления, сегодняшний управляемый данными мир сталкивается с существенно большим разнообразием типов, форм и размеров данных по сравнению с традиционными корпоративными данными. В корпоративном мире данные традиционно сохраняются и анализируются в хранилище данных, которое тщательно проектируется и оптимизируется в расчете на выполнение повторяющихся и эпизодических аналитических задач. В сегодняшнем более открытом мире данные часто сохраняются в разных представлениях, управляемых разными программными системами с разными API, подсистемами обработки запросов и средствами анализа. Кажется сомнительным, что с таким разнообразием сумеет справиться какая-то одна безразмерная (one-size-fits-all) система. Скорее будут развиваться несколько классов систем, ориентированных на удовлетворение соответствующих классов потребностей (например, исключение избыточных данных (deduplication), анализ крупных графов, различные научные эксперименты, обработка потоков данных в реальном времени) или на использование некоторого конкретного типа аппаратных платформ (например, кластеров недорогих машин, крупных многоядерных серверов). Для этих сценариев исследователи баз данных должны применять опыт сообщества для разработки средств параллельной обработки данных, ориентированной на работу с множествами, и эффективного управления наборами данных, не помещающимися в основной памяти.

Еще предстоит выяснить, сколько может понадобиться разных типов систем (например, какой может оказаться целесообразная сфера деятельности системы), но потребность в сосуществовании нескольких систем Больших Данных и аналитических платформ бесспорна. Поэтому еще одной проблемо й разнообразия является потребность аналитиков в средствах объединения и анализа данных, сохраняемых в разных системах. Для поддержки запросов к Большим Данных, пересекающих границы отдельных систем, платформы потребуется интегрировать и объединять в федерации. При этом потребуется не только скрывать неоднородность форматов данных и языков доступа, но также и оптимизировать производительность обращений к данным, распространяющихся на пределы отдельных систем, и потоков, по которым данные перемещаются между системами. Мы также сталкиваемся с проблемой управления системами Больших Данных, которые работают на нескольких разнородных устройствах, располагаются внутри некоторого центра данных или используют ресурсы нескольких центров данных. Все чаще приходится сталкиваться с проблемой устройств, не подключенных к сети, что приводит к трудностям надежной вставки данных, обработки запросов и поддержки согласованности данных в таких временами связанных территориально распределенных средах.

На более высоком уровне в разнородном, управляемом данными мире требуется управлять разнообразными абстракциями программирования над крупными наборами данных. Вместо того чтобы надеяться на появление единого языка анализа данных для Больших данных (возможно, путем расширения SQL или какого-то другого популярного языка), следует давать пользователям возможность анализировать данные в наиболее естественной для них среде. Эта среда может опираться, например, на SQL, Pig, R, Python, какой-либо предметно-ориентированный язык или на какую-либо низкоуровневую модель программирования с ограничениями (такую как MapReduce или модель массивной синхронной обработки Лесли Валианта (Leslie Gabriel Valiant)). Для этого требуется разработка паттернов промежуточного уровня, например, масштабируемого перемножения матриц, операций обработки списков или парадигм итерационного выполнения, с поддержкой различных языковых связываний или включений. Потенциально полезными могут оказаться инструменты для быстрой разработки новых предметно-ориентированных языков анализа данных — средств, которые опрощают реализацию новых масштабируемых языков с параллелизмом по данным.

Чтобы справиться с разнообразием данных, требуются модульные платформы, которые могут справится как с «сырыми», так и с «подготовленными» данными, системы, пригодные к обработке подготовленных данных во многих формах, например, таблиц, матриц или графов. В таких системах будут обрабатываться цельные потоки данных или действий, сочетающие разные типы обработки данных, например, использующие SQL для запросов данных и R для их анализа. Для обеспечения однородности систем, производящих доступ к данным такими разными способами иногда могут оказаться полезными «ленивые» вычисления, включая откладываемые разбор/преобразование/загрузку данных, откладываемое построение индексов и представлений и планирование запросов непосредственно перед их выполнением. Системы управления Большими данными должны становится более интероперабильными и поддающимися сборке подобно блокам Lego. На системном уровне к такому подходу близки фреймворки Mesos и теперь еще YARN, а также системы управления потоками работ из экосистемы Hadoop и инструменты для управления потоками научных работ.

2.3 Сквозные обработка и понимание данных

Для удовлетворения потребностей управляемого данными мира исследовательское сообщество баз данных должно сфокусироваться на средствах сквозной обработки и понимания данных. Несмотря на наличие многолетних исследований и разработок, поразительно немногие инструментальные средства пригодны для сквозной обработки данных, включающей все необходимые шаги от наличия необработанных данных (raw data) до извлеченных из них знаний без существенного вмешательства человека на каждом шаге. Кроме того, для вмешательства в ход обработки на большинстве шагов требуется значительная компьютерная грамотность. Немногие инструментальные средства в этой области относятся к категории open source. Большинство инструментов являются дорогостоящими проприетарными продуктами, пригодными только на некоторых шагах обработки. В результате существующим инструментальным средствам не может помочь постоянная работа, проводимая в сообществе интеграции данных. Для преодоления этой ситуации мы рекомендуем сосредоточиться не только на совершенствовании технологий интеграции данных (таких как очистка данных (data cleaning), согласование схем (schema matching) и исключение избыточных данных (data deduplication)), но и на складывании этих частей головоломки в законченное сквозное решение.

На что могут быть похожи такие сквозные инструменты? В своей основе конвейер, ведущий от необработанных данных к знаниям будет выглядеть совершенно традиционным образом. Его основными шагами по-прежнему будут сбор данных (data acquisition), отбор данных (selection), оценка данных (assessment), очистка данных (cleaning), преобразование данных (transformation) (эта совокупность шагов также называется «окультуриванием» данных (data wrangling)), извлечение и интеграция данных (extraction and integration), разного рода аналитическая обработка (OLAP, mining), обобщение результатов (summarization), обеспечение информации о происхождении (provenance) и разъяснение (explanation). Существенными отличиями являются намного большее разнообразие данных и пользователей, а также значительно больший масштаб. Возникают комбинации структурированных и неструктурированных данных, которые пользователи хотят совместно использовать в структурированной форме. К тому же, люди из разных предметных областей создают инструменты для работы с данными, опирающиеся на обратную связь с человеком на почти каждом шаге конвейера. Эти инструменты все чаще используются экспертами в предметных областях, а не только специалистами в области ИТ. Например, журналист, имеющий CSV-файл со статистикой преступности может захотеть очистить, преобразовать и опубликовать свои данные. Появился совершенно новый класс людей — специалистов по обработке и анализу данных, целиком посвящающих свою деятельность анализу данных. Получаемые аналитические результаты используются намного более широким кругом людей, чем раньше. Наконец, инструменты обработки и анализа данных теперь используются во всех возможных масштабах, от извлечения и объединения данных всего из нескольких Web-страниц до анализа петабайт системных, сетевых журналов, журналов приложений или потоков событий.

Нашему сообществу следует стремиться к созданию эффективных и полезных инструментов, которые могут работать вместе, сквозным образом. По-видимому, не появятся безразмерные средства, пригодные для использования в широком спектре будущих сценариев анализа данных. Поэтому нам нужно разрабатывать многочисленные инструменты, каждый из которых может служить компонентом конвейера, которые можно бесшовно интегрировать и легко использовать как на дилетантском, так и на экспертном уровнях. При возможности следует стремиться использовать «строительные блоки» анализа данных категории open source, комбинировать и повторно использовать их, обеспечивать руководства по целесообразному их применению. Инструменты должны справляться и с анализом небольших данных, и с аналитической обработкой данных гигантского объема. Каждый шаг конвейера должен быть интерактивным и обеспечивать обратную связь с отдельными личностями, группами и даже краудсорсингом.

Инструменты должны быть пригодны для использования знаний предметных областей: словарей, баз знаний и правил, а также должны легко настраиваться для использования в новых предметных областях. При наличии потребности анализировать данные большого объема разработчикам инструментов следует принимать во внимание возможность использования средств машинного обучения для частичной автоматизации процесса настройки. Однако останутся важными правила, создаваемые вручную, поскольку во многих аналитических приложениях, например, в электронной коммерции, требуется очень высокая точность. В таких приложениях аналитики часто пишут большое число правил для обработки проблемных ситуаций, для которых непригодны методы обучения и обобщения. Истинно сквозные и просто используемые инструменты должны обеспечивать поддержку написания, оценки, применения таких правил, а также управления ими.

Требования к разъяснению, отслеживанию происхождения, фильтрации, обобщению и визуализации проявляются на всех шагах конвейера. Удовлетворение этих требований является условием простоты использования инструментов. Для обеспечения возможностей разъяснения, отслеживания происхождения и повторного использования ключевой является поддержка соответствующей метаинформации. Кроме того, визуализация предоставляет существенно важный способ взаимодействия с пользователями и получения от них информации; она особенно полезна в совокупности с методами автоматического анализа. Визуальной аналитике уделяется взрастающее внимание в сообществах баз данных, человеко-машинных интерфейсов и визуализации. Визуализируются запросы к базам данных, интеллектуальный анализ данных и «окультуривание» данных (data wrangling). Требуется развитие методов визуализации для работы с данными большого объема.

Аналитическое управление данными насыщено знаниями. Чем больше имеется знаний о целевой предметной области, тем лучше инструменты могут поддерживать требуемую аналитику. В результате имеется растущая тенденция к созданию, коллективизации и использованию предметно-ориентированных знаний для лучшего понимания данных. Такие знания часто сохраняются в базах знаний, описывающих наиболее важные сущности и связи предметной области. Сообщество специалистов некоторой предметной области, например, биомедицины может построить крупную базу знаний, содержащую десятки тысяч профилей исследователей в области биомедицины, а также их публикации, информацию об их принадлежности к различным организациям и патентах. Такие базы знаний используются для повышения точности аналитического конвейера, обеспечивая ответы на предметно-ориентированные запросы и поддерживая поиск экспертов в соответствующей предметной области. Во многих компаниях базы знаний используются также для ответов на запросы пользователей, аннотирования текстов, поддержки электронной коммерции и анализа социальных сетей.

Тенденция к созданию баз знаний, по-видимому, будет развиваться по направлению к возникновению «центров знаний» разрабатываемых, поддерживаемых и используемых онлайновыми сообществами, компаниями и т.д. Такие центры будут содержать базы знаний и инструменты, поддерживающие запросы, совместное использование знаний и их применение для анализа данных. Многие инструменты будут доступны в «облаках», позволяя использовать центры данных пользователям и приложениям одной или нескольких предметных областей. Для обеспечения сквозной обработки от необработанных данных до знаний от нашего сообщества требуется уделять этой тенденции повышенное внимание, поскольку к ней можно относиться как к использованию знаний предметных областей, часто большой их части, для лучшего понимания необработанных знаний в терминах сущностей и связей соответствующей предметной области. В этом направлении имеются некоторые продвижения (например, работы по созданию баз знаний в различных предметных областях) и даже достигнуты значительные успехи (например, проект YAGO, Max Planck Institute for Computer Science). Однако сделать нужно гораздо больше, включая разработку решений, позволяющих группам пользователей создавать и поддерживать предметно-ориентированные базы знаний, дающих возможность сквозным средствам использовать эти базы знаний и позволяющих пользователям от дилетантов до экспертов легко запрашивать и совместно использовать такие базы знаний.

2.4 Облачные службы

Облачные вычисления превратились в магистральное направление. У компаний имеется широкий выбор поставщиков облачных услуг. У облачных вычислений имеется множество разных форм, включая IaaS (Infrastructure as a Service, инфраструктура как сервис), PaaS (Platform as a Service, платформа как сервис) и SaaS (Software as a Service, программное обеспечение как сервис). Кроме того, различия между IaaS, PaaS и SaaS начали размываться. Например, поставщики IaaS теперь обеспечивают средства управляемости, которые начинают напоминать PaaS. С позиций платформы данных идеальной целью является обеспечение PaaS в наиболее чистом виде. В мире, где поддерживается PaaS для данных, у пользователей должна иметься возможность загружать данные в облака, запрашивать их точно так же, как запрашиваются SQL-ориентированные базы данных в интранете, и выборочно совместно использовать как данные, так и результаты запросов. Не должны возникать затруднения относительно числа абонируемых экземпляров СУБД, используемой операционной системы, разделения баз данных между серверами и настройки систем. Несмотря на появление служб типа Database.com, Google Big Query, Amazon Redshift и Microsoft Azure SQL Database мы все еще далеки от этой перспективы. Ниже обсуждаются наиболее важные проблемы с позиций сообщества баз данных, связанные с реализацией концепции платформы данных как облачного сервиса.

Первой проблемой является эластичность. Хотя во многих случаях эластичностью обладают вычисления, это не относится к данным. В сегодняшних архитектурах перемещение данных может обходиться чрезмерно дорого. Если мы хотим построить платформу данных как сервис с учетом этой реальности, то какой должна быть ее архитектура при наличии эволюции систем хранения данных и сетевых служб? Следует ли привязывать систему хранения данных к серверам или делать ее сетевой? Может ли одна облачная служба поддерживать и транзакции, и аналитику? Как вписывается в эту картину кэширование? Для поддержки эластичности также требуется возможность использования дополнительных ресурсов или управления существующими ресурсами. Серверы баз данных и аналитические платформы для платформы данных как сервиса будут функционировать с использованием эластичных ресурсов, которые будут быстро выделяться в периоды пиковой нагрузки и, возможно, перераспределяться для обслуживания пользователей, которые платят за получение услуг высшего качества.

Вторая проблема — репликация данных. Хотя тема репликации данных является хорошо изученной, важно вернуться к ней в контексте облаков, имея в виду потребность в высоком уровне доступности, балансировки нагрузки и экономической эффективности. При решении проблем и эластичности, и репликации нужно не ограничиваться рамками одного центра данных, а иметь в виду возможность использования нескольких географически распределенных центров данных.

Третьей проблемой является системное администрирование и настройка. Платформа данных, используемая как облачная служба, должна быть исключительно автоматически настраиваемой. В мире платформ данных как сервисов традиционные роли администраторов баз данных и систем просто не существуют. Все задачи администратора, включая планирование мощностей (capacity planning), обеспечение ресурсов (resource provisioning), физическое управление данными и формирование политики доступности данных (admission control policy setting) должны быть автоматизированы с учетом вариаций, связанных с эластичностью ресурсов и их доступностью в облачной среде.

Ключевой технической проблемой управления эластичностью служб, связанных с данными, является мультиарендность (multitenancy). Для обеспечения конкурентоспособности провайдер платформы данных как сервиса должен предлагать структуру затрат, сопоставимую с той, которая обеспечивается для локальных решений (или обладающую улучшенными характеристиками). Для этого провайдер должен допускать совместную аренду одной службы баз данных с разделением физических ресурсов одного сервера, чтобы выравнивать спрос и уменьшать стоимость. Однако мультиарендность порождает две трудности. Во-первых, провайдеры должны уметь обеспечивать изоляцию производительности, чтобы в периоды повышенной нагрузки службы от одного арендатора не слишком ухудшалась производительность той же службы для других арендаторов. Для этого требуется тщательное управление процессорами, вводом-выводом, основной памятью и сетевыми ресурсами. Во-вторых, пользователям службы баз данных должны обеспечиваться гарантии безопасности от возможной утечки информации между арендаторами.

В мире облачных служб Соглашения об уровне обслуживания (Service Level Agreement, SLA) являются важными, но вызывают проблемы. В мультиарендной платформе данных как сервисе эластичность доступности глобальных ресурсов и потребность в управлении ресурсами влияют на доступность ресурсов для арендатора. Это, в свою очередь, может влиять на качество обслуживания. Мы только начинаем понимать связь между многоарендным распределением ресурсов и качеством обслуживания. Наличие такого понимания поможет сформировать основу развитых SLA для платформы данных как сервиса. Сегодняшние SLA ориентированы, прежде всего, на доступность. Для обеспечения повсеместного использования платформ данных как сервисов требуется глубокое понимание этого вопроса, поскольку он влияет не только на структуру затрат арендаторов, но также и на развитие приложений баз данных, основанных на облачных службах и принимающих во внимание показатели качества обслуживания (Quality of Service, QoS). Кроме того, структура затрат развитых служб должна легко пониматься пользователями.

Еще одной проблемой является совместное использование данных, поскольку облачная инфраструктура потенциально обеспечивает эту возможность в небывалых ранее масштабах. Сообщество баз данных должно стремиться к созданию новых служб, использующих этот потенциал облаков. Уже появились сервисы, позволяющие повысить производительность совместной деятельности, а также обеспечивающие возможность совместного использования результатов анализа данных и визуализации. Для нас появляется прекрасная возможность активно исследовать более насыщенные идеи в контексте аналитики данных. Например, на что в будущем будет похожа коллективная аналитика? Для реализации подобных перспектив нам необходимо понять, каким образом можно поддерживать такие важные службы как курирование данных (data curation) и отслеживание их происхождения (data provenance) при желании выполнять подобные активности коллективно в облачной инфраструктуре. Совместное использование данных в облаках порождает также и ряд новых трудностей, касающихся применения наборов данных: как находить полезные публично доступные данные, как сопоставлять собственные данные с публично доступными данными для формирования контекста, как находить в облаках высококачественные данные, как совместно использовать данные на мелкоструктурных (fine-grained) уровнях. Появляются и бизнес-проблемы: как распределять затраты при совместном использовании вычислений и данных, как оценивать данные? Возникают новые проблемы жизненного цикла: как защитить данные при отказах облачных поставщиков услуг, как обеспечить долговременность хранения данных, размещенных в облаках, и т.д.? Применение облачных инфраструктур также стимулирует развитие средств руководства данными (data governance): аудит, соблюдение правовых норм и условий, разъяснение пользовательских политик.

Новый набор проблем порождает переход к гибридным облакам (hybrid clouds). Сегодня к числу этих проблем относятся поддержка совместного использования и бесшовного функционирования локальных сервисов и серверов баз данных и соответствующих облачных служб одного поставщика. В будущем придется объединять на федеративной основе сервисы совместного использования данных, поддерживаемые в мобильных устройствах, в локальных вычислительных системах и в облаках с разными поставщиками услуг. Нам также придется поддерживать общие шаблоны использования гибридных облаков, например, организации смогут запускать приложения в своих частных облаках во время нормальной работы, а затем использовать публичное облако в часы пик или при возникновении всплесков нагрузки из-за появления непредвиденных событий. Другим примером являются кибер-физические системы; например, в Интернете вещей (Internet of Things) автомобили будут загружать данные в облако и получать в ответ управляющую информацию. Кибер-физические системы имеют дело с потоками данных с нескольких датчиков и мобильных устройств и должны справляться с перебоями связи и ограниченным временем жизни батарей, что создает серьезные проблемы для потенциально критически важного управления данными в облаке в реальном времени.

2.5 Роли людей в жизненном цикле данных

В мире корпоративного управления данными было ясно, кто и что делает: разработчики создавали базы данных и их приложения, бизнес-аналитики запрашивали данные с использованием средств построения отчетов на основе SQL, конечные пользователи генерировали данные, запрашивали и обновляли базы данных, а администраторы настраивали и отслеживали базы данных и рабочие нагрузки. Сегодня мир кардинально изменился. Один человек может играть несколько ролей в жизненном цикле данных, и многие приложения Больших Данных привлекают людей во многих разных ролях. Сообщество исследователей баз данных должно отреагировать на это изменение и научиться управлять не только данными, но и людьми.

Постепенно растет признание возрастающей роли людей в жизненном цикле данных, например, работ, выполняемых в нашем сообществе или где-то еще в режиме краудсорсинга. Однако новая потребность в «управлении людьми» относится не только к краудсорсингу или микро-задачам (т.е. задачам, на решение которых у работников краудсорсинга уходит несколько минут). Современный ландшафт требует внимания людей (и привлечения элементов субъективности) в связи с пониманием и уточнением запросов, выявлением релевантных и заслуживающих доверия источников информации, определением и постепенным совершенствованием конвейера обработки данных, визуализацией соответствующих шаблонов и получением ответов на запросы, причем все это в дополнение к выполнению различных микрозадач, выполняемых экспертами прикладной области и конечными пользователями. Роли людей можно классифицировать по четырем обобщенных категориям: производители данных (producers of data), кураторы данных (curators of data), потребители данных (consumers of data) и члены сообществ (community members).

Многие люди сегодня являются производителями данных (мобильные телефоны, социальные сети и т.д.), поскольку почти каждый человек может генерировать лавину данных на основе совместного использования таблиц, применения мобильных телефонов, социальных платформ и приложений (например, Facebook, Twitter), а также расширяющегося набора носимых устройств (wearable device), например, использования фитнес-браслетов (fitbit). Одной из ключевых проблем сообщества баз данных является разработка алгоритмов и стимулов, поддерживающих создание и совместное использование людьми наиболее полезных данных при сохранении желательного уровня конфиденциальности. Например, как помочь людям быстро и точно добавить к данным метаданные в ходе генерации данных? К примеру, когда пользователь загружает в Facebook изображение, система автоматически выделяет в нем лица, чтобы у пользователя имелась возможность пометить их. В Twitter имеются средства автоматической расстановки тегов в твитах. Что можно делать еще, каковы общие принципы и инструменты, которые может предложить сообщество баз данных?

Многие люди становятся кураторами данных. В сегодняшнем управляемом данными мире данные в меньшей степени, чем раньше, контролируются централизованно. Данные сохраняются не только в базах данных, контролируемых администраторами баз данных и курируемых IT-отделами. Как уже отмечалось, самые различные данные теперь генерируются, и самые различные люди привлекаются к их курированию. В частности, одним из перспективных решений курирования данных является краудсорсинг. Проблемой является получение высококачественных наборов данных на основе процесса с несовершенным кураторством. Кроме того, нужны платформы для поддержки кураторства данных и соответственным образом расширенные приложения, обеспечивающие такую поддержку. Для решения этих ориентированных на людей проблем критичными являются связанные вопросы отслеживания происхождения и разъяснения данных, а также аспекты конфиденциальности и безопасности.

Люди являются и потребителями данных. Все чаще люди желают разнообразными способами использовать все более «грязные» (messier) данные. Это порождает много проблем. Корпоративные потребители данных обычно умели формулировать SQL-запросы над структурированными базами данных — через интерфейс командной строки или с использование графических инструментов построения запросов. Сегодняшние потребители данных могут вообще не уметь формулировать запросы над структурированными наборами данных (например, это может быть журналист, которому требуется «найти среднюю температуру во всех городах Флориды с населением больше 100000 человек»). Проблемой нашего сообщества является обеспечение возможности для таких людей самим получать ответы на подобные вопросы. Для этого требуются новые интерфейсы запросов (а не только консольные SQL-интерфейсы), например, интерфейсы на основе использования мультисенсорных панелей. Требуются интерфейсы, сочетающие возможности визуализации, запросов и навигации. Многим потребителям данных может быть неизвестно, какие требуются запросы, а доступные данные могут удовлетворять или не удовлетворять их потребности. В тех случаях, когда неясно, какой требуется запрос, людям требуются другие способы обхода, исследования, визуализации и анализа данных. Мы должны построить инструменты и инфраструктуры, упрощающие процесс потребления данных, которые опираются на понятия доверия к данным, происхождения и разъяснения данных, и мы должны ориентироваться на разнородную базу пользователей нового мира, управляемого данными.

Люди являются членами сообществ. В Сети имеется множество сообществ, и ежедневно возникают новые сообщества. Члены этих сообществ часто нуждаются в создании, совместном использовании данных и в управлении данными, и соответствующие возможности достаются им все проще. В частности, члены сообщества могут коллективно создавать базы знаний сообщества, вики и инструменты для обработки данных. Например, многие исследователи создали в Google Scholar свои собственные страницы, способствуя развитию базы знаний этого «сообщества». Нашей проблемой является построение инструментальных средств, помогающих сообществам производить полезные данные, а также исследовать, совместно использовать и анализировать эти данные.

3. Проблемы сообщества баз данных

Кроме исследовательских проблем, на встрече также обсуждались многочисленные спорные вопросы самого сообщества баз данных. В их число входят обучение базам данных, культура исследований, наука о данных (data science) и подготовка ученых, работающих с данными (data scientists). Некоторые из этих проблем являются новыми, привнесенными Большими Данными. Другие проблемы хотя и не новы, усиливаются наступлением Больших Данных и становятся все более важными для нашего сообщества.

Одной из проблем, которые обсуждали участники встречи, было обучение базам данных. Подход, применяемый при обучении технологии баз данных, становится все более оторванным от реальности. Мы все еще обучаем технологии 1980-х, когда размеры основной памяти значительно уступали объемам данных, в результате чего операции ввода-вывода являлись наиболее дорогостоящей частью операций над базами данных; достаточно дорогостоящими были и вычисления. Сегодняшний мир выглядит совсем по-другому. Достижения технологии перевернули вверх дном многие ранее действовавшие архитектурные ограничения. Например, для некоторых классов приложений базы данных теперь могут полностью размещаться в основной памяти; новые технологии хранения данных устраняют некоторые проблемы прошлых лет, связанные с разными скоростями последовательных и произвольных обменов с внешней памятью; а достижения в области распределенных вычислений принесли нам самоуправляемые распределенные файловые системы, методы масштабируемой параллельной обработки данных и новые декларативные языки. Хотя эти языки разрабатывались под влиянием языков баз данных, в них ослабляется жесткость SQL, и они компилируются в задания MapReduce на соответствующих существующих платформах. Несмотря на наличие этих изменений, мы все еще основываем свое преподавание на архитектурных образцах 1970-х и 1980-х. Аналогично, наше преподавание модели данных и языка запросов базируется на отношениях и SQL. Подавляющее большинство участников встречи согласилось с тем, что изменения в обучении технологии баз данных являются запоздалыми, но не удалось добиться общего мнения относительно сути этих изменений.

Некоторые участники полагали, что следует начинать с новых технологий, например, с технологии поколоночного хранения таблиц, другие же утверждали, что учить нужно «сверху-вниз», разъясняя суть альтернативных технологий в каждой точке принятия архитектурных решений, или что нужно начинать с понятий качества и ценности данных, поднимая более общий вопрос движения от «сырых» данных к знаниям. Кроме того, функциональные возможности, ранее ограниченные контекстом баз данных и скрываемые интерфейсом SQL, теперь проявляются в разных контекстах и доступны в более мелких, более специализированных системах (например, в хранилищах «ключ-значение», в потоковых базах данных), а также и за пределами баз данных (примерами могут служить использование параллелизма на основе хэширования и масштабируемое внешнее хранение в системах типа Hadoop).

В результате возникает ощущение, что учить нужно принципам, паттернам и алгоритмам, накопленным в течение многолетних исследований баз данных, с учетом того, что современная применимость этой технологии значительно шире внутренностей SQL-ориентированной системы. К числу других связанных вопросов относятся следующие. Как нам выделить драгоценные самородки, закопанные в реляционной традиции, чтобы они не находились каждый раз заново? Какова роль этого материала в обучении основам компьютерной науки; нужно ли замкнуть его в «гетто» курса по базам данных, или же внедрить в общий вводный учебный план наряду с рекурсией, методом «разделяй и властвуй» и объектно-ориентированным программированием? Если будет принят второй подход, чем следует заменить это материал в курсе по базам данных?

Наряду с проблемой обучения технологии баз данных имеется проблема, каcающаяся нашей культуры исследований. В последние годы тревожным явлением стало возрастающее внимание к числу публикаций и счетчикам цитирования, а к не результатам исследований. Это препятствует выполнению крупных системных проектов, построению сквозных инструментальных средств и совместному использованию объемных наборов данных, поскольку в этих случаях для получения результатов требуется большее время, и плотность публикаций уменьшается. Программные комитеты (ПК) часто выше оценивают новизну работы, а не ее полезность или потенциальное влияние. (Публикационное давление приводит к образованию гигантских ПК, не проводящих очных встреч своих членов, что затрудняет учет эффективности работы членов ПК и передачу опыта молодежи.) Эти проблемы ставят под удар нашу программу Больших Данных. Для эффективного выполнения этой программы важно разрабатывать и совместно использовать крупные системы, сквозные инструменты и наборы данных, чтобы обеспечить оценку результатов и выработать направления дальнейших исследований, чтобы обеспечить практическую пользу. Нашей области следует стремиться к возврату к состоянию, в котором нормой является небольшое число публикаций в расчете на каждого исследователя, и более высоко ценятся крупные системные проекты, наборы сквозных инструментов и совместное использование данных. Тем не менее, не было достигнуто консенсуса относительно того, как лучше всего подойти к решению этой проблемы, чтобы она перестала мешать нам в будущем.

Еще одной серьезной проблемой является то, что пришествие Больших Данных порождает быстро возрастающий спрос на ученых, работающих с данными (data scientist): лиц, обладающих знаниями и навыками для преобразования больших объемов данных в практически полезные знания. Таким ученым требуются навыки не только управления данными, а также использования инструментов и платформ крупномасштабной обработки данных, но также и знания и навыки в областях интеллектуального анализа данных, компьютерных систем, математики, статистики, машинного обучения и оптимизации. От них также требуется умение работать в тесном взаимодействии с экспертами предметной области. В ответ на эту потребность в некоторых университетах создаются институты науки о данных и программы повышения квалификации для содействия сотрудничеству, а также сбора необходимых междисциплинарных знаний и формирования учебных курсов. Исследовательское сообщество баз данных может много что предложить, и нам следует активно этим заниматься. Наука о данных является междисциплинарным движением, и для участия в нем требуется сотрудничество со специалистами предметной области. Пришествие Больших Данных дает возможность компьютерной науке влиять на учебные программы в областях химии, наук о земле, социологии, физики, биологии и т.д. Небольшие разделы компьютерной науки, присутствующие в этих программах, можно было бы расширить и переориентировать, чтобы обеспечить более заметную роль управлению данными и науке о данных.

4. Перспективы

Мы живем в очень интересное время для исследований в области баз данных. Раньше мы руководствовались, но также ограничивались корпоративной жесткостью, реляционными данными и традиционными архитектурами реляционных систем баз данных. Рост Больших Данных и видение мира, управляемого данными, открывают множество интересных возможностей и создают множество новых проблем для сообщества разработчиков баз данных. Являясь сообществом, которое традиционно занимается всеми темами, связанными с данными, мы обладаем прекрасной возможностью играть центральную роль в этом новом мире. Существует множество исследовательских возможностей, связанных с решением многих проблем больших данных; разнообразия данных; новых аппаратных средств, программного обеспечения и архитектуры облачных платформ; жизненного цикла данных от создания данных до их анализа и совместного использования; разнообразием, ролями и числом людей, связанных со всеми аспектами данных. Пришло время переосмыслить наш подход к образованию, степень нашей вовлеченности в работу потребителей, нашу систему ценностей и ее влияние на то, что (и как) мы распространяем и как мы финансируем свои исследования.

Благодарности. Бекманская встреча состоялась благодаря финансовой поддержке Фонда памяти профессора Рама Кумара (Professor Ram Kumar Memorial Foundation) Microsoft Corporation и @WalmartLabs.

5. Литература

[BDD+89] Philip A. Bernstein, Umeshwar Dayal, David J. DeWitt, Dieter Gawlick, Jim Gray, Matthias Jarke, Bruce G. Lindsay, Peter C. Lockemann, David Maier, Erich J. Neuhold, Andreas Reuter, Lawrence A. Rowe, Hans-Jorg Schek, Joachim W. Schmidt, Michael Schre, Michael Stonebraker. «Future Directions in DBMS Research — The Laguna Beach Participants». ACM SIGMOD Record, 18(1):17-26, 1989.
Основные идеи отчета на русском языке изложены в статье Сергея Кузнецова «Будущие направления исследований в области баз данных: десять лет спустя»
[SSU91] Avi Silberschatz, Michael Stonebraker, Jeff Ullman. «Database Systems: Achievements and Opportunities». Communications of the ACM, 34(10):110-120, 1991.
[SSU96] Avi Silberschatz, Mike Stonebraker, Jeff Ullman. «Database Research: Achievements and Opportunities into the 21st Century». ACM SIGMOD Record, 25(1):52-63, 1996.
Имеется перевод на русский язык: «Базы данных: достижения и перспективы на пороге 21-го столетия»
[SZ96] Avi Silberschatz, Stan Zdonik, et al. «Strategic Directions in Database Systems: Breaking Out of the Box». ACM Computing Surveys, 28(4):764-778, 1996.
Имеется перевод на русский язык: «Стратегические направления в системах баз данных»
[BBC+98] Phil Bernstein, Michael Brodie, Stefano Ceri, David DeWitt, Mike Franklin, Hector Garcia-Molina, Jim Gray, Jerry Held, Joe Hellerstein, H. V. Jagadish, Michael Lesk, Dave Maier, Jeff Naughton, Hamid Pirahesh, Mike Stonebraker, Jeff Ullman. «The Asilomar Report on Database Research». ACM SIGMOD Record, 27(4):74-80, 1998.
Имеется перевод на русский язык: «Асиломарский отчет об исследованиях в области баз данных»
[AAB+05] Serge Abiteboul, Rakesh Agrawal, Phil Bernstein, Mike Carey, Stefano Ceri, Bruce Croft, David DeWitt, Mike Franklin, Hector Garcia Molina, Dieter Gawlick, Jim Gray, Laura Haas, Alon Halevy, Joe Hellerstein, Yannis Ioannidis, Martin Kersten, Michael Pazzani, Mike Lesk, David Maier, Jeff Naughton, Hans Schek, Timos Sellis, Avi Silberschatz, Mike Stonebraker, Rick Snodgrass, Jeff Ullman, Gerhard Weikum, Jennifer Widom, Stan Zdonik. «The Lowell Database Research Self-Assessment». Communications of the ACM, 48(5):111-118, 2005.
Основные идеи отчета изложены в статье Сергея Кузнецова «Крупные проблемы и текущие задачи исследований в области баз данных»
[AAB+09] Rakesh Agrawal, Anastasia Ailamaki, Philip A. Bernstein, Eric A. Brewer, Michael J. Carey, Surajit Chaudhuri, AnHai Doan, Daniela Florescu, Michael J. Franklin, Hector Garcia-Molina, Johannes Gehrke, Le Gruenwald, Laura M. Haas, Alon Y. Halevy, Joseph M. Hellerstein, Yannis E. Ioannidis, Hank F. Korth, Donald Kossmann, Samuel Madden, Roger Magoulas, Beng Chin Ooi, Tim O'Reilly, Raghu Ramakrishnan, Sunita Sarawagi, Michael Stonebraker, Alexander S. Szalay, and Gerhard Weikum. «The Claremont Report on Database Research». Communications of the ACM, 52(6):56-65, 2009.
Имеется пересказ с комментариями: «Клермонтский отчет об исследованиях в области баз данных»