Производительность обновления хранилища данных
В дополнение к СУБД Teradata компания NCR поставляет высокопроизводительные утилиты по загрузке и обновлению хранилищ данных.
Fastload
Входящая в пакет Teradata утилита FastLoad позволяет осуществлять заполнение пустых таблиц данными, собранными от канальных и сетевых клиентов. Программа FastLoad может выполняться с любой клиентской платформы, мэйнфрейма или UNIX-системы. Все операции дробления данных, преобразования их в другой формат, передачи и загрузки данных производятся автоматически и параллельно. Вот почему программа FastLoad обеспечивает более высокую производительность, чем любая другая стандартная прикладная программа, написанная для поддержки загрузки данных в пустую базу данных. Программа FastLoad является автоматически перезапускаемой и в случае какого-либо сбоя позволяет продолжать процесс загрузки данных с последней динамической контрольной точки, просто выполняя задание повторно. В этом и заключается причина ее высокой производительности и надежности.
MultiLoad
Утилита MultiLoad СУРБД Teradata позволяет интегрировать загрузку, обновление и удаление данных в существующих таблицах в один комплексно осуществляемый процесс. Если вам необходимо обновлять и удалять чрезвычайно большие объемы данных, мы рекомендуем вам остановить свой выбор на MultiLoad - программе, обладающей весьма высокой производительностью.
Программа MultiLoad позволяет осуществлять оперативный сбор с главного компьютера и крайне быструю поблочную запись данных в таблицы СУРБД Teradata. Она позволяет осуществлять вставку (в том числе и поверх), удаление, обновление и больших объемов данных, как в пустые, так и в заполненные таблицы, а также синхронное ведение данных сразу в нескольких таблицах. Например, она может осуществлять перечисление средств на один счет, списывать их с другого, заполнять соответствующую строку бухгалтерского журнала и обновлять соответствующие статьи баланса - и все это она будет делать в течение одного прохода по исходным данным. Как и FastLoad утилита MultiLoad может бесперебойно работать на самых разнообразных клиентских платформах и обеспечивает полное восстановление работоспособности после сбоя системы благодаря использованию контрольных точек.
В новой версии Teradata утилита MultiLoad стала еще более высокопроизводительной, удовлетворяя возрастающим требованиям по оперативной загрузке данных в хранилище.
TPump
Если существующая система достаточно загружена для того, чтобы выполнять изменение данных в выделенные для этого промежутки времени, то Teradata Parallel Data Pump (TPump) является наилучшим решением проблемы для хранилища данных под управлением СУБД Teradata. TPump позволяет реализовать загрузку данных в хранилище в режиме on-line. TPump может добавлять, изменять и удалять данные больших таблиц хранилища данных произвольно малыми порциями. Как и другие утилиты массовой загрузки данных, TPump работает быстро, эффективно, экономично и позволяет конкурентно использовать ресурсы хранилища данных другим задачам.
TPump идеально подходит для систем, в которых окно загрузки пересекается с нормальными рабочими часами. Вместо того чтобы загружать данные в ночное время или в специально отведенные промежутки в течение рабочего времени администратор теперь может выполнять эту задачу в реальном времени. В отличие от других утилит массовой загрузки TPump не блокирует загружаемые таблицы а использует блокировку хэш-строк. Изменения в таблицах применяются немедленно. Эта особенность позволяет выполнять запросы к хранилищу во время загрузки.
TPump осуществляет загрузку данных, полученных от одного или более клиентов в файлах разнообразной структуры. Для каждой строки исходных данных может быть выполнена одна или несколько операций добавления, изменения или удаления которые могут быть адресованы любой из изменяемых таблиц. Для выполнения задач изменения данных в хранилище в режиме on-line утилита TPump использует следующий подход:
- Для описания задачи пользователя TPump использует язык описания команд и выражений.
- Готовая для выполнения задача анализируется от начала до конца прежде, чем будут выполнены какие либо фактические действия.
- TPump поддерживает последовательность в обработке изменений, которая в ситуациях, когда только что добавленная строка должна быть изменена, гарантирует выполнение добавления перед изменением.
- TPump использует контрольные точки по времени для рестарта заданий в случае сбоев.
- TPump поддерживает такие хорошо зарекомендовавшие себя в утилите MultiLoad особенности, как управление логикой операций, обработку ошибочных ситуаций, процедуру 'UPSERT', рестарты и многосеансовые задания.
- Для повышения эффективности использования сетевых ресурсов TPump использует механизм макросов. В одном запросе может быть выполнено более ста операций.
Функции манипулирования данными TPump существенно улучшены средой TPump Support Environment. В дополнение к координированию задач она позволяет управлять исходными файлами, осуществлять условную обработку и выполнять функции манипулирования данными (DML) и функции определения данных (DDL). Среда Support Environment дает пользователю дополнительный контроль над всеми функциями TPump.
Таблица 1. Утилиты СУБД Teradata
Утилита | Применение | Поддерживаемые платформы |
Язык BTEQ | Написание сценариев для пакетной обработки данных
Форматирование отчетов
Составление специальных незапрограммированных запросов
Администрирование базы данных
Разработка и тестирование языка SQL
Поддержка межплатформенного экспорта-импорта данных | MVS/VM, Hitachi, Unisys, Bull, UNIX, Windows, Windows 95/NT, OS/2, Macintosh |
FastLoad | Скоростная первоначальная загрузка таблиц
Перезапуск по контрольной точке | MVS/VM, Hitachi, Unisys, Bull,
UNIX, Windows, Windows 95/NT, OS/2, Macintosh |
FastExport | Высокоскоростная выгрузка данных в формате клиента
Сортировка и объединение данных
Параллельный вывод потоков обратных данных благодаря работе в параллельном режиме | MVS/VM и UNIX |
MultiLoad | Высокопроизводительная работа с большими объемами данных
Перезапуск по контрольной точке
Специальный интерфейс с базой данный
Блокировка записи на диск
Вывод параллельных потоков данных благодаря работе в параллельном режиме
Параллельный ввод
Параллельное обновление нескольких таблиц за один проход
Наилучшее средство для внесения изменений более чем в 1-2% строк | MVS/VM, Hitachi, Bull, Unisys и UNIX |
BulkLoad | Высокопроизводительное средство на основе языка SQL для пакетной обработки данных
Равномерное распределение нагрузки по параллельно работающим каналам с помощью блокировки лишних данных в строках
Параллельная работа посредством нескольких одновременно осуществляемых сеансов
Использование запросов со многими операторами
Поддержка IMMODS для обработки данных
Программирование источника данных
Наилучшее средство для работы, когда изменение требуется внести не более чем в 2% строк | MVS/VM |
Назад |
Содержание |
Вперед