1999 г
Bulletin of the Technical Committee on
Data Engineering
March 1999, Vol. 22, No. 1
IEEE Computer Society
Темой этого номера являются технологии преобразования данных. В тематическом блоке представлено девять статей, краткий обзор которых предлагается вашему вниманию.
Tools for Data Translation and Integration
Serge Abiteboul1 Sophie Cluet1 Tova Milo2 Pini Mogilevsky2 Jerome Simeon1
Sagit Zohar2
1 I.N.R.I.A, Rocquencourt, France, E-mail: <firstname>.<lastname>@inria.fr
2 Tel Aviv University, Israel, E-mail: {milo, pinim, sagit}@math.tau.ac.il
Перед многими организациями, желающими использовать данные Web, встает проблема интеграции и трансляции этих данных. Во Всемирной Паутине используется множество разных форматов данных, включая форматы конкретных баз данных, XML и Latex, Step и т.д. Для использования в приложении данные должны быть преобразованы к соответствующему представлению. Решение этой проблемы путем написания отдельных программ для каждого требуемого случая требует многих технических усилий. Для основательного решения задачи трансляции данных требуется введение единой абстракции для разнообразных форматов хранения данных и определение средств для спецификации соответствия форматов и их преобразования. В качестве основы решения задачи интеграции вводятся модель данных промежуточного уровня и декларативный язык правил, с помощью которого специфицируются требования интеграции. Трансляция исходного формата данных в целевой формат выполняется в три этапа: (1) импорт исходных данных в промежуточную модель, (2) трансляция в другое промежуточное представление, более близкое к целевой структуре и (3) экспорт оттранслированных данных в целевую систему. На примере демонстрируется применение для этих целей модели данных YAT и соответствующего языка правил YATL.
Meta-Data Support for Data Transformations Using Microsoft Repository
Philip A. Bernstein Thomas Bergstraesser
Microsoft Corporation
[phillbe, thomderg]@microsoft.com
Для интерпретации данных пользователи и приложения нуждаются в метаданных. При перемещении или трансформации данных необходимы соответствующие преобразования метаданных. На сегодня наиболее распространенной средой перемещения и преобразования данных являются хранилища данных. Объем и разнородность метаданных, требуемых в хранилище данных, предполагают естественное использование технологии репозитариев. Примерами метаданных являются исходная и целевая схемы данных, информация об агрегатах, расписание задач, топология системы. В статье описывается продукт Microsoft Repository, предназначенный для управления метаданными. Продукт основывается на использовании Microsoft SQL Server 7.0 и обеспечивает навигационный объектно-ориентированный интерфейс и базовый доступ в интерфейсе SQL. Схема репозитария описывается в модели Open Information Model, базирующейся на UML (Unified Modeling Language). Возможностями репозитария, в частности, пользуется программный инструмент Data Transformation Service (DTS), облегчающий разработку хранилищ данных. В одном из особенно интересных разделов статьи содержится обсуждение возможностей использования языка XML для совместного использования метаданных и обмена метаданными.
Metadata Transformation and Management with Oracle interMedia
Marco Carrer, Ashok Joshi, Paul Lin, and Alok Srivastava
{mcarrer, ajoshi, pilin, alsrivas}@us.oracle.com
Oracle Corporation
One Oracle Drive
Nashua, NH 03062
Возможность управления мультимедийными данными является одним из серьезных преимуществ объектно-реляционных СУБД. При реализации возникает серьезная проблема узвлечения и обработки соответствующих метаданных. При наличии структурированных метаданных, связанных с мультимедийными данными, можно обеспечить эффективное выполнение запросов к мультимедийной информации. Сложность состоит в том, что обычно метаинформация встраивается в источник мультимедийных данных с использованием частных форматов хранения. В статье описаны принципы организации расширяемого инструмента Oracle MediaAnnotator, который разработан для совместного использования с Oracle 8i interMedia. MediaAnnotator поддерживает автоматическое извлечение встроенных метаданных и их преобразование в "логические аннотации" - внутреннее представление этих метаданных в базах данных Oracle. Расширяемая архитектура MediaAnnotator позволяет применять инструмент для различных видом мультимедийных данных.
Flexible Database Transformations: The SERF Approach
Kajal T. Claypool and Elke A. Rundensteiner
Department of Computer Science
Worcester Polytechnic Institute
Worcester, MA 01609-2280
{kajal|rundenst}@cs.wpi.edu
Основная часть небольшой статьи посвящена описанию подхода к поддержке эволюции схем объектно-ориентированных баз данных, разработанного в проекте SERF. Отмечая ограниченные возможности современных технологий в части эволюции схем ООБД, авторы предлагают свой подход, позволяющий применять приспособленные к нуждам пользователей произвольно сложные преобразования схем. Подход основан на той гипотезе, что сложные эволюционные преобразования схемы могут быть разбиты в последовательность базовых эволюционных примитивов, атомарных операций с фиксированной семантикой, поддерживаемой ООСУБД. Для комбинирования примитивов в сложные преобразования используется стандартный язык запросов OQL. Подход демонстрируется на примере одного сложного преобразования. Кратко обсуждаются некоторые другие особенности проекта SERF: управление согласованностью, семантическая оптимизация, применение подхода SERF к реструктуризации Web-сайтов.
Specifying Database Transformations in WOL
Susan B. Davidson
Dept. of Computer and Information Science
University of Pennsylvania
Philadelphia, PA 19104
Email: susan@central.cis.upenn.edu |
Anthony S. Kosky
Gene Logic Inc.
Bioinformatics Systems Division
2001 Center Str., Suite 600
Berkeley, CA 94704 |
Статья и лежащие в ее основе исследования и разработки связаны с практическими потребностями биомедицинских баз данных, для представления которых средства реляционной модели оказываются недостаточными. Хотя авторы не говорят об этом прямо, по всей видимости, распространено использование объектно-ориентированных баз данных. В этом случае возрастают требования к языку, с помощью которого можно описывать преобразования схем баз данных. Описывается разработанный авторами логический язык WOL (Well-founded Object Logic), который позволяет производить преобразования над сложными типами и рекурсивными структурами данных. Приводится ряд аргументов в пользу создания специального декларативного языка преобразований вместо того, чтобы использовать язык запросов к базе данных типа OQL. На основе языка WOL создана экспериментальная система Morphase.
Transforming Heterogeneous Data with Database Middleware:
L.M. Haas R.J. Miller B.Niswonger M. Tork Roth P.M. Schwarz E.L. Wimmers
{laura, niswongr, torkroth, schwarz, wimmers}@almaden.ibm.com; miller@cs.toronto.edu
Многие современные приложения нуждаются в информации, поступающей из разнородных источников данных с разными представлениями. Примерами могут быть подключение нового источника данных к существующему хранилищу данных, более динамическая интеграция данных в соответствии с запросами пользователей, использование данных из одного источника но в форме, отличной от исходной. Во всех этих случаях требуется преобразование одного или нескольких наборов данных к единому представлению. Такие преобразования могут включать преобразование схемы, а также преобразования и очистку данных (изменение формата и словаря данных, устранение дублирующих и ошибочных данных). Во многих случаях для интеграции данных, поступающих от нескольких источниках, применяется промежуточное программное обеспечение баз данных (database middleware). Для иллюстрации идей статьи авторы опираются на систему Garlic, которая представляет собой прежде всего процессор запросов, оптимизирующий и выполняющий запросы к различным источникам данных на объектном расширении языка SQL. И при планировании, и при выполнении запросов Garlic взаимодействует с оболочками (wrappers) источников данных. Обсуждаются преимущества такой организации системы для преобразования данных. Упоминается также разрабатываемый в настоящее время инструмент Clio, который должен поддерживать полуавтоматическое отображение представлений данных.
Repository Support for Metadata-based Lagacy Migration
Sandra Heiler Wang-Chien Lee Gail Mitchell
GTE Laboratories Incorporated
40 Sylvan Road
Walham, MA 02451
{sheiler, wlee, gmitchell}@gte.com
Частичная или полная замена существующей и используемой программной системы называется миграцией унаследованной системы: наличные программные системы являются наследством; преобразование данных и процедур старой системы в соответствующие сущности новой системы происходит в процессе миграции. Процесс миграции унаследованной системы обладает двумя характеристиками, не свойственными другим процессам разработки программного обеспечения: (1) на каждом шаге процесса миграции должна поддерживаться работоспособность системы; (2) унаследованные системы и базы данных имеют установившиеся связи с другими системами и базами данных предприятия; данные могут являться входными или выходными данными других систем, код может совместно использоваться несколькими приложениями; эти связи должны сохраняться в процессе миграции. В ходе миграции происходит не только замена существующих систем и баз данных, но сложные отображения между старыми и новыми данными, процессами и системами. Для этого требуются метаданные, описывающие данные и другие аспекты унаследованных и новых систем и связи между ними. Метаинформация должна описывать, например, компоненты (использование, функции, интерфейс), данные (источник, формат, элементы), код (язык, история изменений, версии) и т.д. Технология репозитариев метаданных обеспечивает средства извлечения метаданных из существующих систем и их преобразование для обеспечения возможности управления. Кроме того, репозитарий может хранить информацию о самом процессе миграции, которая может использоваться в других проектах. Рассмотрению разных аспектов применения репозитариев в процессе миграции унаследованных систем и посвящена эта статья.
Independent, Open Enterprise Data Integration
Joseph M. Hellerstein, Michael Stonebraker, and Rick Caccia
{jmh, mike, rick}@cohera.com
Предложенная Эдвардом Коддом реляционная модель данных была ориентирована на достижение максимальной независимости между программами, с одной стороны, и машинными представлениями и организацией данных, с другой стороны. Сегодня обычно обращается внимание на два аспекта независимости данных. Физическая независимость данных отделяет хранение данных от их логического представления, позволяя настаивать и развивать среду хранения данных без влияния на существующие приложения. Логическая независимость данных отделяет базовое логическое представление от многочисленных других представлений пользователей и приложений. Уроки независимости данных прямо применимы к работе предприятия с многими источниками данных. Интеграция нескольких источников данных должна отделяться от конкретики физической интеграции. Логическое представление данных должно быть гибким, допускающим разнообразные пользовательские представления. По мнению авторов, независимость данных была частично утрачена в технологии хранилищ данных, сторонники которой выступают за наличие единого доступа к корпоративным данным за счет использования единой среды хранения. Соответствующее программное обеспечение трудно конфигурировать, масштабировать и развивать. Федеративные системы баз данных (FDBS) поддерживают полную независимость данных, обеспечивают гибкость при хранении и репликации данных. В статье сравнивается технология интеграции, используемая в Cohera FDBS, с решениями, доступными в области хранилищ данных. Рассматривается также влияние на логическую независимость данных применение частных механизмов преобразования данных и преимущества использования открытого стандарта SQL99.
Supporting Retrievals and Updates in an Object/Relational
Mapping System
Jack Orenstein
Novera Software, Inc.
jack@nohera.com
Система Enterprise Business Objects (EBO) является частью основанного на языке Java сервера приложений jBusiness компании Novera Software. EBO предназначена для отображения бизнес-объектов в объекты Java и отображения объектов Java в таблицы базы данных. Описывается объектная модель EBO, поддерживаемый язык выборки бизнес-объектов и их обновления, а также используемые отображения.