Logo Море(!) аналитической информации!
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Разные облики технологии баз данных

22-23 апреля в новом здании Президиума РАН на Ленинском проспекте Москвы прошла 15-я Техническая конференция "Корпоративные базы данных". Конференция была организована компанией ЦИТФорум и Институтом системного программирования РАН при поддержке Российского фонда фундаментальных исследований. Партнерами организаторов конференции являлись компании РЕЛЭКС и Embarcadero Technologies.

На конференции было представлено 16 докладов представителей компаний и организаций Microsoft, Oracle, Intersystems, IBM, РЕЛЭКС, Embarcadero Technologies, Red Soft, Х-Технология, ИСП РАН, ГАИШ, НИИСИ и ЦИТФорум. Запланированные доклады представителя компании Sybase, к сожалению, не состоялись по техническим причинам (связанным с извержением вулкана Эйяфьятлайокудль). Традиционно председателем программного комитета, ведущим конференции и одним из докладчиков был ваш покорный слуга.

День первый. Базовые технологии

Alexey ShuleninКонференцию открыл доклад Алексея Шуленина (Microsoft) "Microsoft SQL Server 2008 R2 - новые возможности и перспективы". По словам г-на Шуленина, второй релиз SQL Server 2008, официально выпущенный компанией несколько дней назад, является следующим витком эволюции SQL Server 2008, который сам по себе появился в результате эволюции SQL Server 2005. Однако, несмотря на эволюционную природу нового релиза, в нем содержится ряд новых и очень переспективных возможностей.

На мой взгляд, наиболее интересным новшеством SQL Server 2008 R2 является появление редакции Parallel Data Warehouse, означающей присоединение компании Microsoft к лагерю производителей массивно-параллельных СУБД категории sharing-nothing (без совместно используемых ресурсов). Этот вариант системы основан на решении компании DATAllegro, поглощенной Microsoft около двух лет назад. При использовании Parallel Data Warehouse можно будет эффективно организовывать хранилища данных петабайтного масштаба.

Другим новым для Microsoft важным компонентом SQL Server 2008 R2 является система потоковой обработки данных Streaminsight. Эта система позволяет производить анализ данных в темпе их поступления в сервер в потоковом режиме. Аналитические запросы заранее загружаются в систему и выдают результаты по мере "протекания" сквозь них данных (технология continuous queries). Интересно, что хотя обычно в подобных системах используется некоторая вспомогательная СУБД с хранением данных в основной памяти, по словам Алексея Шуленина, в Streaminsight не применяется соответствующая технология Gemini, на основе которой построено другое средство SQL Server 2008 R2 – PowerPivot.

PowerPivot обеспечивает хранение баз данных в основной памяти и их аналитическую обработку. В настоящее время средство PowerPivot встроено в продукты Microsoft Excel 2010 и Sharepoint 2010. В результате аналитики могут производить обработку крупных аналитических таблиц (до миллионов строк) на стороне клиента, обмениваться данными и результатами и публиковать их в Web.

Наконец, в SQL Server 2008 R2 существенно повышена мощность традиционных средств управления данными на симметричных мультипроцессорных системах. Редакция Datacenter уверенно масштабируется до 256 логических процессоров и позволяет эффективно обрабатывать данные объемом в сотни терабайт.

Mark RyvkinМарк Ривкин (Oracle) выступил с докладом "Новые возможности второго релиза СУБД Oracle 11g". Oracle 11g R2 также является эволюцией первого выпуска Oracle 11g. По словам г-на Ривкина, при создании этой системы преследовались цели значительного сокращения стоимости требумого оборудования (до 5 раз) и систем хранения данных (до 20 раз), повышения производительности (до 10 раз), увеличение продуктивности администраторов баз данных и снижения стоимости модернизации системы (до 4 раз). Так что в некотором смысле этот релиз можно называть антикризисным.

При использовании кластерной архитектуры СУБД Oracle появилась возможность динамического управления ресурсами (процессорами) на основе устанавливаемых политик. Процессоры разбиваются на группы в соответствии с поддерживаемыми приложениями, и для каждой группы задаются минимально и максимально требуемое число процессоров и уровень важности этой группы. При отказе узла кластера в соответствии с политикой происходит перераспределение ресурсов.

Появилась опция RAC One Node, при использовании которой СУБД работает в одном узле кластера, но в случае его отказа обеспечивается автоматическое перемещение СУБД (без потери выполняемой работы) в другой узел. Повышена производительность, масштабируемость и надежность Oracle In-memory Database Cache (это средство поддерживается на основе использования СУБД с хранением данных в основной памяти, ранее именовавшейся Times Ten).

В Oracle 11g R2 появилась возможность автоматической настройки уровня параллелизма выполнения запросов. Оптимизатор запросов теперь сам решает, нужно ли распараллеливать запрос вообще, и если это требуется, то до какой степени. Для этого учитывается оценка времени последовательного выполнения запроса, стоимость операций сканирования таблиц и т.д. Существенно повысилась степень сжатия данных, хранимых на дисках (до 80%).

Существенным продвижением во втором релизе является возможность расширения буферного кэша за счет использования твердотельных (флэш) накопителей. Это позволяет добиться высокой скорости ввода-вывода без потребности в применении сотен отдельных дисковых устройств.

Oleg OleninСледующим выступал Олег Оленин (Intersystems). Его доклад назывался "Технологии InterSystems для eXtreme Transaction Processing". Термин Extreme Transaction Processing (XTP) был введен в обиход компанией Gartner в 2006 г., и он характеризует новое поколение приложений, поддерживающих распределенную и масштабируемую обработку крупных потоков данных и транзакций.

В докладе г-на Оленина утверждалось, что при использовании СУБД Cachè можно эффективно преодолеть многие важные проблемы XTP. Cachè позволяет обрабатывать транзакции с очень высокой скоростью (до сотен тысяч в секунду), обеспечивает надежное распределенное хранение данных, поддерживает удобный доступ к данным из разных внешних источников, позволяет разрабатывать приложения в объектном стиле. Соответствующие технологии образуют стек технологий InterSystems Cachè eXTreme.

Отдельного внимания заслуживает утверждение докладчика, что компания Intersystems стремится к лидерству на рынке систем поддержки персистентных Java-объектов. В частности, технология Intersystems Java Update превращает процессы JVM в процессы СУБД Cachè, обеспечивая быстрый и удобный для Java-программистов доступ к многомерному хранилищу данных.

Mark BarinsteinКомпанию IBM в этом году представлял Марк Баринштейн, который выступил с докладом "Преимущества использования DB2 PureScale при создании высокопроизводительных систем". Хотя по утверждению г-на Баринштейна технология PureScale не является новшеством для IBM, поскольку подобная организация давно уже используется в вариантах DB2 для мейнфреймов, для многих участников конференции была неожиданностью близость (по крайней мере, внешняя) этого решения традиционной архитектуре Oracle RAC.

Основная направленность DB2 PureScale состоит в обеспечении пользователям DB2 прозрачного перехода в кластерную, хорошо масштабируемую (до 256 узлов) среду без потребности в каком-либо изменении приложений. DB2 во всех узлах кластера работает с общей базой данных, которая сама хранится в распределенной файловой системе. В каждом узле поддерживается собственный локальный буферный кэш, и согласованность кэшей поддерживается за счет аппаратной возможности удаленной записи в память другого узла (за счет использования сетевой аппаратуры Infiniband).

DB2 PureScale не претендует на замену массивно-параллельного варианта DB2, на котором основан продукт InfoSphere Warehouse. Это эффективная и масштабируемая платформа транзакционных приложений, которая в настоящее время поддерживается только в среде AIX, но вскоре будет работать и на основе Linux.

Nikolay SamophatovНиколай Самофатов (Red Soft) представил доклад "Решения на базе СУБД Firebird в крупных компаниях и государственных учреждениях". Г-н Самофатов, прежде всего, отметил, что в 2010 г. сообщество СУБД Firebird отмечает 10-летний юбилей своей системы, основные разработчики которой являются гражданами России. Далее он остановился на особенностях разработки Firebird и обратил внимание присутствующих на важную роль в этом процессе расширенных версий системы, которые создаются в соответствии с требованиями пользователей, а затем служат основой для выпуска нового релиза основного ядра.

Основная часть доклада Николая Самофатова посвящалась новейшей версии системы – Firebird 2.5. Основным отличием этого релиза системы от предыдущих версий является поддержка новой архитектуры SuperClassic, позволяющей как использовать СУБД в многопроцессорных системах, так и встраивать ее в тиражируемое программное обеспечение. В Firebird появилось средство Trace API, позволяющее в реальном времени отслеживать выполнение SQL-запросов и отлаживать их. Ряд новых возможностей внедрен на уровне языка SQL, в том числе, средства управления привилегиями.

Mikhail ErmakovС докладом "Поддержка стандарта OpenGIS в СУБД ЛИНТЕР" выступил Михаил Ермаков (РЕЛЭКС). Свой с доклад г-н Ермаков начал с того, что за последние три года в СУБД Линтер появилось много новых возможностей, однако доклад на эту тему будет представлен на данной конференции в следующем году. В этом же году компания решила ограничиться рассказом о своем подходе к реализации поддержки геометричеких данных.

Для поддержки ГИС в СУБД Линтер создана библиотека LINGEO, обеспечивающая преобразования текстового представдения геометрических данных в двоичное представление и наоборот; содержащая процедуры для работы с внутренним представлением геометрических данных и т.д. Компилятор SQL расширен средствами поддержки контрукций описания и обработки геометрических данных. Требуемые средства включены в ядро СУБД Линтер: обеспечиваются конструкции сравнения геометрических значений, подерживаются функции с параметрами и значениями геометрических типов и т.д. Соответствующим образом расширен набор представлений, описывающих схему базы данных.

Доклад Олега Бартунова (ГАИШ) назывался "Что нового в PostgreSQL 9.0". Как заметил г-н Бартунов, скачок от предыдущего релиза PosgreSQL 8.5 сразу к релизу 9.0 не означает, что в системе произошли революционные изменения. Но, тем не менее, в процессе подготовки 9.0 было предложено 204 патча, на основе тщательного рецензирования которых в релиз вошли 14 патчей.

Наверное, для пользователей системы одним из наиболее видимых изменений является ускоренная процедура VACUUM FULL, которая работает гораздо быстрее предыдущего варианта за счет полной переписи таблиц на новое место. Появились некоторые новые возможности при оптимизации запросов (например, оптимизатор научился выбрасывать из плана запроса нетребуемые операции соединений). Введены средства откладывания проверки ограничений уникальности. Стало можно связывать вызов триггеров с изменениями отдельных столбцов таблиц.

Svetlana SmirnovaПоследний доклад первого дня конференции делала представительница Oracle/Sun/MySQL Светлана Смирнова. Ее доклад назывался "MySQL версии 5.5.3-m3: что нового?". Оживленное внимание участников конференции привлекли слайды г-жи Смирновой, которые впервые были оформлены в стиле Oracle. По этому поводу возник ряд вопросов относительно целей Oracle по отношению к MySQL, на которые, естественно, ответить не смогла ни Светлана, ни другие представители Oracle.

Так или иначе, разработка MySQL продолжается, и в новой версии имеется ряд новых и интересных возможностей. Первое оригинальное новшество – служебная база данных PERFORMANCE_SCHEMA, поддерживаемая в основной памяти и содержащая оперативную информацию о событиях сервера: вызов функции, системный вызов, этап выполнения SQL-запроса и т.д. Появились улучшенные средства разделения таблиц, в частности, по диапазону составных значений нескольких столбцов. В новой версии MySQL реализована "полусинхронная" репликация, при которой основной сервер дожидается ответа от одного из участвующих в репликации подчиненных серверов.

Начиная с версии 5.5 по умолчанию в качестве "движка" системы используется InnoDB Plugin. В MySQL 5.5.3-m3 применяется InnoDB Plugin 1.0.6. В этом движке поддерживается новый формат хранения данных, улучшены возможности сжатия данных и т.д.

День второй. Аналитика, многомерные базы данных, наука

Andrey PivovarovВторой день работы конференции начался с доклада Андрея Пивоварова (Oracle) "Новые возможности Oracle OLAP Option 11g". Как правильно заметил г-н Пивоваров, прежде чем говорить о новых возможностях OLAP Option 11g, нужно напомнить, что такое Oracle OLAP вообще. Так вот, на сегодняшний день это многомерная СУБД, основанная на использовании одного из предыдущих продуктов Oracle – Express Server и встроенная в основную СУБД Oracle. Соответствующие многомерные данные хранятся в отдельных аналитических пространствах дисковой памяти.

Многомерная СУБД может использоваться неявно при выполнении аналитических SQL-запросов. В этом случае в плане выполнения запроса могут присутствовать обращения к внутренней аналитической базе данных, а возможно, и построение куба данных. С другой стороны, возможны аналитические вычисления над существующими кубами данных на стороне сервера с использованием специального языка Oracle OLAP DML.

Возможность работы с многомерными базами данных внутри SQL-ориентированных баз данных (Oracle OLAP Option) появилась еще в 2002 г. в Oracle 9.2.0, когда СУБД Express была впервые встроена в состав СУБД Oracle. С тех пор возможности Oracle OLAP Option постоянно совершенствуются, прежде всего, в отношении производительности. Однако добавляются и новые функциональные возможности. Например, в OLAP Option 11g появилась возможность использовать многомерные кубы в виде материализованных представлений к табличным аналитическим данным.

Olga GorchinskayaДоклад Ольги Горчинской (Oracle) "Технологии Oracle для аналитики реального времени" также посвящался аналитике, но совсем в другом ракурсе. Г-жа Горчинская говорила о двух сравнительно новых продуктах компании – Oracle GoldenGate и Oracle Real Time Decisions. Как свойственно Oracle, оба эти продукта основаны на технологиях компаний, поглощенных Oracle.

Oracle GoldenGate, по сути, обеспечивает быстрое (в реальном времени) наполнение баз данных Oracle или других поставщиков данными из других оперативных баз данных. Для этого агенты этого продукта регулярно пересылают части журналов транзакций баз данных-источников в целевую систему баз данных, где эти части журналов повторно воспроизводятся. В принципе технология достаточно проста и понятна, но для ее реализации требуется знание структуры жерналов всех интегрируемых источников, чего добиться, вообще говоря, нетривиально.

Продукт Oracle Real-Time Decisions основан на технологии, разработанной компанией Sigma Dynamics. В свое время эта компания была куплена компанией Siebel, которая использовала ее решение в своем продукте CRM, перешедшем к Oracle после поглощения Siebel в 2006 г. Просто говоря, Real-Time Decisions – это система поддержки принятия решений, сочетающая использование экспертных знаний в виде правил и формул подсчета показателей и статистических методов в духе data mining и machine learning. В общем случае для обеспечения качественных рекомендаций системе требуется обучение на поступающих в реальном времени данных.

Valery YudinДоклад Валерия Юдина (с соавторстве с Леонидом Карповым) "Обмен данными в распределенной системе поддержки решений", как и в прошлом году, посвящался разрабатываемой в ИСП РАН системе поддержки принятия решений, основанной на анализе прецедентов. В практическом отношении в настоящее время система направлена на оказание компьютерной помощи врачам при постановке диагноза на основе наблюдаемых признаков заболевания у пациентов. Если в своем первом варианте система работала на основе прецедентов, накопленных одним врачом, то теперь авторы предлагают способы совместного использования врачебных знаний в распределенных системах подержки принятия решений.

Andrey SovtsovВпервые на конференции были представлены продукты компании Embarcadero Technologies, которая в известном смысле является правоприемницей известной компании Borland. Но в данном случае сотрудник компании Андрей Совцов в своем докладе "ER/Studio и DBArtisan: решения Embarcadero для архитекторов и администраторов баз данных" рассказывал о продуктах, направленных на поддержку проектирования и администрирования баз данных.

Продукт ER/Studio позволяет получать модель корпоративной SQL-ориентированной базы данных на основе ее внутренних каталогов (эта возможность поддерживается для различных СУБД). Кроме того, в духе модельно-ориентированной разработке (Model Driven Development) можно производить проектирование корпоративных баз данных на разных уровнях детализации – от самого общего абстрактного представления до моделей с учетом применяемых технологических платформ. Модели баз данных могут с пользой использоваться на протяжении всего жизненного цикла баз данных.

DBArtisan – это продукт, поддерживающий деятельность администраторов баз данных. С одного рабочего места администратора в едином интерфейсе можно управлять базами данных IBM DB2, Oracle, Microsoft SQL Server, MySQL и Sybase. Администраторам доступны средства управления схемами баз данных, безопасностью, резервным копированием и т.д.

Andrey VasilievТакже впервые на конференции "Корпоративные баз данных" была представлена российская разработка многомерной СУБД UMS-FAD компании Х-Технология. С докладом об этой системе "Многомерная СУБД UMS-FAD" выступил Андрей Васильев. Цель разработчиков состоит в том, чтобы создать СУБД с многомерной моделью данных, обеспечивающую эффективную поддержку как аналитических, так и транзакционных приложений. По словам докладчика, имеющаяся в настоящее время третья версия система устойчива, эффективна и используется в реальных производственных приложениях.

Oleg BartunovСледующие два доклада (тоже впервые на конференции) посвящались проблемам научных баз данных и средствам управления ими. С докладом "Вызовы науки для теории и практики СУБД" выступил Олег Бартунов (ГАИШ). В данном случае он выступал не как разработчик СУБД PostgreSQL, а как активно действующий ученый-астроном, для решения задач которого возможностей традиционных СУБД (в том числе, и PostgreSQL) оказывается недостаточно.

Наука все более полагается на использование информационной технологии. Научные результаты, как правило, получаются путем компьютерной обработки результатов экспериментов. Для обеспечения возможности валидации научных результатов независимыми экспертами требуется обеспечить воспроизводимость научных результатов. В свою очередь, для этого требуется вечно хранить результаты экспериментов и промежуточные результаты их обработки, поддерживать целостность данных, иметь возможность отслеживания происхождения данных и т.д. Для всего этого требуются новые виды СУБД, ориентированные на поддержку науки. Более развернутое изложение доклада Олега Бартунова доступно здесь.

Pavel VelikhovДоклад "Международный проект SciDB" представил координатор проекта в России Павел Велихов (НИИСИ РАН). Проект SciDB был основан около полутора лет тому назад по инициативе Майкла Стоунбрейкера, Дэвида Девитта и других авторитетных представителей сообщества баз данных и фундаментальной науки. Целью проекта является создание новой СУБД, ориентированной на поддержку научной деятельности. В проекте активно участвуют российские разработчики.

К числу основных требований к создаваемой СУБД относятся эффективное хранение "сырых" данных, поддержка полного цикла анализа данных, обеспечение возможностей поддержки версий и отслеживания происхождения данных, предоставление средств работы с неточными данными. Принято решение использовать в качестве основной модели данных традиционно применяемую в науке модель многомерных массивов. В готовящейся к выпуску первой версии системы поддерживается ее базовая функциональность (в частности, пока отсутствуют поддержка версионности и отслеживание происхождения данных). Интерфейс системы основан на разработанной авторами алгебре многомерных массивов.

Sergei KuznetsovНаконец, с последним докладом на конференции выступил я, Сергей Кузнецов, представляя организаторов конференции – Институт системного программирования РАН и компанию ЦИТФорум. Мой доклад назывался "MapReduce и параллельные аналитические базы данных" и посвящался обсуждению подходов к использованию технологии MapReduce в аналитических СУБД. Были рассмотрены подходы, при которых MapReduce реализуется внутри ядра параллельной СУБД, используется в качестве коммуникационной инфраструктуры новой параллельной СУБД и применяется автономно в симбиотическом единстве с параллельной СУБД.

В качестве примера применения первого подхода были проанализированы особенности организации массивно-параллельных СУБД Greenplum Database и nCluster компаний Greenplum и Aster Data Systems соответственно. Второй подход применяется в проекте HadoopDB университетов Yale и Brown. Наконец, третий подход развивается в компании Vertica. Доклад основывался на ранее опубликованной статье, доступной здесь.

На мой взгляд, конференция прошла успешно. Доклады были в основном интересными, вызывали вопросы и обсуждения со стороны участников конференции. Презентации докладов опубликованы здесь. Организаторы глубоко благодарны Российскому фонду фундаментальных исследований и компаниям РЕЛЭКС и Embarcadero Technologies за оказанную поддержку и надеятся на продолжение сотрудничества в интересах российских пользователей и разработчиков приложений баз данных.

PS. Фотографии, использованные в заметке, любезно предоставлены участником конференции Юрием Петровым.

ЦИТ Форум

Ваш комментарий

Имя:

Текст комментария (HTML-теги не допускаются):

Новости мира IT:

Архив новостей

Последние комментарии:

Как стать программистом? (22)
Вторник 26.07, 21:56
Вышел web-браузер Chrome 52 (1)
Суббота 23.07, 18:51
Loading

IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Информация для рекламодателей PR-акции, размещение рекламы — adv@citforum.ru,
тел. +7 985 1945361
Пресс-релизы — pr@citforum.ru
Обратная связь
Информация для авторов
Rambler's Top100 TopList liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодня This Web server launched on February 24, 1997
Copyright © 1997-2000 CIT, © 2001-2015 CIT Forum
Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...