Что нового в PostgreSQL 8.3 и другие новости

2008 г.

Доклад конференции "Корпоративные базы данных-2008"

Что нового в PostgreSQL 8.3 и другие новости

Олег Бартунов, Федор Сигаев, Николай Самохвалов, Иван Золотухин, Российская группа PostgreSQL

2008 – удачный год для начала использования PostgreSQL
В работе над PostgreSQL версии 8.3, выход которой пришёлся на начало февраля 2008-го года, принимали участие десятки разработчиков из 18 стран. В течение 15 месяцев напряжённой разработки и тестирования были обработаны и успешно внедрены более 280 пакетов изменений исходного кода. PostgreSQL сегодня представляет собой поистине совершенный продукт, который используют такие компаниями, как Cisco, NTT, Skype, Apple, Fujitsu, Рамблер, Яндекс, РБК, 1С, Мастерхост и многие другие.
Описание основных изменений и новинок можно разбить на четыре части:

улучшения производительности,
новые возможности для программистов баз данных,
нововведения, предназначенные для администраторов баз данных,
многочисленные проекты-спутники.

Производительность
PostgreSQL успешно тягается в плане производительности не только с OpenSource-альтернативами, но и с ведущими коммерческими СУБД. Такими как Oracle. Это уже не пустой звук — взгляните на результаты тестирования, проведённого в компании Sun. Медленных слонов больше нет! Богатейший набор типов индексов, широчайшие возможности тюнинга системы, работа с очень большими объёмами и нагрузками, хороший выбор систем репликации и масштабирования — всё это «по зубам» современным слонам. Даже скорость разработки выгодно отличает Постгрес по сравнению с другими СУБД: каждый год мы неизменно получаем существенный шаг вперёд. Стоит особо отметить экономию средств, которую любой желающий может получить при использовании PostgreSQL: на каждом сервере БД она составит порядка $124000!
Среди основных улучшений производительности стоит выделить следующее:

HOT (Heap Only Tuples), позволяющие существенно сократить физический объём таблиц, ускорить операции модификации данных, а также запросы вида SELECT count(*);
асинхронные транзакции, помогающие уменьшить время отклика в OLTP-системах с большим количеством модифицирующих транзакций;
синхронизованные просмотры таблиц;
checkpoint smoothing, обеспечивающий надёжность высокого уровня производительности системы (отсутствие периодических спадов производительности);
теперь autovacuum включён по умолчанию;
в некоторых ситуациях теперь возможнен запуск сразу нескольких процессов autovacuum (например, при продолжительном процессе чистки большой таблицы, небольшие таблицы теперь не вынуждены ждать завершения данного процесса);
заметное уменьшение дискового пространства, занимаемого базами данных: 1) за счёт заголовков varlena-типов (типы данных переменной длины: текст, массивы и т. п.), которые ранее занимали строго 4 байта, а теперь в некоторых ситуациях всего 1 байт; 2) за счёт экономии заголовков строк таблицы (ранее 27 байт, теперь — 24);
выполнение транзакций, не модифицирующих данные, не приводит к увеличению значения счётчика транзакций (xid), что существенно снижает вероятность ситуации «перекрытия» счётчика транзакций (xid wraparound); кроме того, данное изменение является значительным шагом вперёд к реализации встроенной Master-Slave репликации на основе трансфера журнала транзакций — теперь не возникнет рассинхронизации счётчика xid между Master- и Slave-узлами;
реализован механизм автонастройки параметров процесса bgwriter (background writer — специальный процесс, занимающийся записью «грязных» разделяемых буферов на диск);
оптимизирован механизм получения результата для запросов с использованием «…ORDER BY … LIMIT…» (т. н., Top-N sorting): в некоторых случаях система удерживает необходимые страницы данных в оперативной памяти, что обеспечивает очень высокую скорость выдачи результата;
теперь можно задавать (пока только в виде двух констант) оценочную стоимость выполнения фунции и оценку количества рядов, которые она возвращает, что позволяет планнеру PostgreSQL выбирать лучший план запроса (пример: ALTER FUNCTION log_data(text) COST 100000 ROWS 1).

Разработчикам
Самое заметное и существенное изменение, которое следует здесь отметить, — это миграция модуля для полнотекстового поиска (contrib/tsearch2) в ядро системы. Разрабатываемый российскими разработчиками Олегом Бартуновым и Фёдором Сигаевым, tsearch2 долгое время являлся самым популярным contrib-модулем Постгреса. Патч для миграции полнотекстового поиска в ядро, который был принят этим летом в результате кропотливой и продолжительной работы (принятая версия патча — 58!) сразу нескольких ключевых разработчиков команды PostgreSQL, является самым большим за всю историю проекта.
Кроме того, что все возможности модуля tsearch2 теперь будут доступны по умолчанию и процессы миграции на новую версию PostgreSQL заметно упростятся, конфигурировать словари и правила обработки текстов теперь станет проще: все основные операции по конфигурированию осуществляются с помощью SQL-команд.
Другое заметное изменение — поддержка XML, в работе над которой принимал постгресмен Николай Самохвалов. Данный функционал реализован в соответствии со стандартом SQL:2003 (14-я часть стандарта, SQL/XML). Прежде всего, появился специальный тип данных xml, встроенный в ядро. При использовании данного типа, сервер проверяет, правильно ли сформированы данные (проверка на well-formedness ). Причём возможны варианты использования, при которых разрешена работа с частями документа (это позволяет обеспечить свойство «замкнутости» функций для работы с XML на тип данных xml). В соответствии со стандартом SQL:2003 реализован набор функций для преобразования реляционных данных в XML (т. н., функции публикации SQL/XML).Для ускорения выполнения запроса к XML-данным возможно использование функциональных btree-индексов и GIN-индексов, а также использования полнотекстового поиска для XML-данных.
Что касается типов данных, PostgreSQL 8.3 представляет целый ряд нововведений: помимо встроенных в ядро системы типов tsquery/tsvector и xml, появились следующие:

enum (перечислимые типы данных, определяемые пользователем) для удобства некоторых пользователей, в том числе мигрирующих с TheirSQL;
типы данных GUID/UUID (в виде contrib-модуля);
массивы составных типов (например, определённых пользователем типов).

И наконец, краткий список остальных изменений:

автоматическая инвалидация кэша плана запросов для PL/pgSQL-функций;
конструкции «CREATE FUNCTION … RETURNS TABLE» и «RETURN TABLE…» для создания функций, результатом которых является таблица;
поддержка операции обновления для курсоров;
стандартная (ISO/ANSI SQL) конструкция «ORDER BY … NULLS FIRST/LAST» для упрощения установки порядка следования NULL-значений (также помогает при миграции с других СУБД);
индексация NULL-значений в GiST-индексах.

Администраторам
В планах запросов (команда EXPLAIN ANALYZE) теперь видно, какой именно алгоритм сортировки был выбран и сколько памяти было израсходовано.
Специальный contrib-модуль pg_standby упростит работу администраторам, настраивающим сервер «тёплого бэкапа» (Warm Standby) на основе трансфера журнала логов (WAL transfer). Модуль написан на чистом C, поэтому является легко расширяемым и портируемым на новые платформы (работоспособность проверена уже, по крайней мере, на Linux и Win32).
При определении функции теперь можно переопределять переменные окружения, которые будут действовать только в рамках выполнения данной функции (привязка значений переменных функциям).
Ну и, по традиции, краткий список других новинок данного раздела:

поддержка интерфейса GSSAPI;
улучшенная сборка на платформе Win32 (теперь не требуется MinGW, сборка ведётся в MS VC++, что помимо прочего приводит к улучшению производительности в Windows);
создание таблиц по подобию с учётом индексов (пример: CREATE TABLE dict2 (LIKE dictionary INCLUDING INDEXES)).

Проекты-спутники
Компания EnterpriseDB выпустила отладчик pldebugger, который представляет собой contrib-модуль, позволяющий отлаживать PL/pgSQL-функции в стандартном инструменте для администрирования pgAdminIII и осуществлять профайлинг.
Компания Skype (которая использует в широко известном одноимённом проекте именно PostgreSQL как основную серверную СУБД) выпустила в Open Source сразу несколько продуктов, которые могут быть полезны большому кругу разработчиков. Среди них прежде всего стоит отметить псевдо-язык PL/Proxy, позволяющий организовывать горизонтальное масштабирование практически без ограничений (при условии, если вся бизнес-логика приложения реализована в виде хранимых процедур), чрезвычайно лёгкий менеджер соединений PgBouncer. Загляните на страничку Skype Developers Zone, вы найдёте много интересного.
На рубеже весны и лета 2007-го года вышла версия 1.0 простого и удобного инструмента для анализа логов pgFouine. Данная программа поможет вам узнать, чем же занимался ваш процессор (процессоры) сервера баз данных. pgFoiune анализирует логи запросов Постгреса (при включении журнализации запросов рекомендуется вводить ограничение по времени снизу, см. описание параметра log_min_duration_statement), предоставляя отчёты по самым медленным запросам, ошибкам и общую статистику. Тем самым данный инструмент позволяет разработчику баз данных понять, какие запросы можно улучшить, чтобы ускорить работу приложения, использующего PostgreSQL.
И наконец, кратко об остальных продуктах:

проект pgSNMP является реализацией SNMP-агента для PostgreSQL (мониторинг состояния сервера);
SEPostgres – расширение, основанное на модели обеспечения усиленной безопасности SELinux;
создан инструмент, создающий рекомендации администратору баз данных по созданию индексов и показывающий возможный план выполнения запроса при условии наличия таких индексов (Index Advisor);
в известном инструменте для web-администрирования phppgadmin появились (или вот-вот появятся) возможности настройки Slony-кластера, полнотекстового поиска, параметров автовакуума.

Заключение
Версия 8.3 укрепляет позиции PostgreSQL как полноценной системы управления базами данных для корпоративного использования. Нетривиальные улучшения в области производительности, появление возможностей, которые продиктованы нуждами пользователей, расширение множества проектов-спутников — всё это демонстрирует уверенное и быстрое развитие PostgreSQL. Опыт крупных компаний и новые тесты производительности демонстрируют зрелость PostgreSQL и подтверждают звание самой развитой открытой СУБД в мире.