IEEE Bulletin of Data Engineering (Vol. 21, No 2, June 1998)

1999 г

Июньский номер журнала "IEEE Bulletin of Data Engineering" (Vol. 21, No 2, June 1998) посвящен вопросам, связывающим тематику баз данных и World Wide Web. Тематический блок включает письмо редактора этого выпуска и шесть статей. Приводим их краткий обзор.

Bulletin of the Technical Committee on

Data Engineering

June 1998, Vol. 21, No. 2

IEEE Computer Society

Resistance is Futile: The Web Will Assimilate Your Database
Web-Site Management: The Strudel Approach
Connecting Diverse Web Search Facilities
Mediating and Metasearching on the Internet
What can you do with a Web in your Pocket?
Virtual Database Technology, XML, and the Evolution of the Web

Resistance is Futile: The Web Will Assimilate Your Database

Susan Malaika
IBM Santa Teresa Laboratory
malaika@us.ibm.com

В статье обсуждаются способы обеспечения к базам данных в Web с использованием HTML и XML и некоторые вопросы интеграции систем. Выделяются следующие категории совместного использования технологий реляционных баз данных и Web:

Хранение и управление Web-ресурсами (например, гипертекстовыми документами и ссылками) с помощью реляционных баз данных.
Обеспечение доступа к Web-ресурсам с использованием методов реляционных баз данных, в частности, использование механизмов индексации и оптимизации запросов для работы с "полуструктурированными" Web-ресурсами.
Хранение и управление реляционными данными в Web - преобразование табличных данных в форматы, непосредственно доступные в Web, и управление преобразованными данными в кэшах и хранилищах данных в сети.
Доступ к реляционным данным с использованием методов Web: доступ к реляционным базам данных со стороны Web-клиентов на основе серверных шлюзов или клиентского программного обеспечения.

Последняя категория является основной темой статьи. В первой части статьи вводятся базовые понятия, используемые при интеграции технологий Web и баз данных:

Universal Resource Locator (URL) для протоколов ftp, http и jdbc (по поводу последнего отсутствует общее согласие, и он не поддерживается в продуктах общего назначения).
Hypertext Markup Language (HTML). С точки зрения интеграции с технологией баз данных наибольший интерес представляют формы и гипертекстовые ссылки, хотя в расширенных по отношению к стандарту (Standard Generalized Markup Language Document Type Definition - SGML DTD) допускаются конструкции, содержащие запросы к базам данных, ответы на которые превращаются в обычный HTML-формат на стороне сервера.
Hypertext Transfer Protocol (HTTP), определяющий типы запросов, которые можно направлять от клиента к серверу с указанием URL сервера в каждом запросе.

Что касается реляционных баз данных, то имеется общее согласие по поводу программных интерфейсов доступа к ним (SQL и правила его встраивания, например, SQLJ), но имеются разногласия по поводу многих важных аспектов:

как реляционные данные и соответствующие метаданные хранятся в системе баз данных: навигация по базе данных возможна только с помощью средств соответствующей СУБД
каким образом производится обмен реляционными данными между разнородными системами - различными СУБД и Web
как разнородные СУБД выполняют сетевые коммуникации
как именуются ресурсы баз данных и как конструируются URL'ы запросов.

В следующей части автор приводит обзор существующих в настоящее время методов интеграции Web-технологии и технологии реляционных баз данных, классифицируя их в соответствии с тем, в каком формате информация посылается клиенту (в виде HTML-документов или реляционных результирующих наборов данных).

HTML-документы (обработка на стороне Web-сервера):
- шаблоны HTML (встроенные запросы на языке SQL, встроенные результаты выполнения запросов, URL запроса к базе данных);
- общие конструкции для организации шаблонов (подстановка переменных, встроенные фрагменты HTML, расширения имен файлов и т.д.).
- cкрипты на стороне сервера и программные шлюзы:
- средства создания скриптов (CGI-скрипты на языках Си, Perl, Rexx, Java-сервлеты, Active Server Pages и т.д.);
- использование шаблонов HTML совместно со средствами сервера.
Реляционные результирующие наборы (обработка на стороне клиента):
- клиентское приложение (например, Java или ActiveX), взаимодействующее по сети с реляционной базой данных (часто с использованием шлюзов);
- результирующие реляционные наборы доставляются в приложение по одной строке;
- Java-апплеты - JDBC или SQLJ.

В четвертой части статьи обсуждаются некоторые системные вопросы, влияющие на интеграцию систем баз данных с Web:

управление потоками и процессами;
безопасность;
управление контекстом или состоянием;
транзакции;
кэширование.

В завершающей части статьи кратко рассматриваются основные черты нового языка разметки XML (Extensible Markup Language), ориентированного на упрощение определения тегов в конкретной предметной области на основе словарей (vocabularies). Словари для реляционных баз данных включают некоторые конструкции шаблонов HTML для баз данных, такие как теги запросов и результатов. В результате унифицируется работа с базами данных на стороне сервера и стороне клиента и упрощается обмен реляционными данными с другими системами в незапланированном режиме.

В целом статья представляет собой хороший (хотя и не исчерпывающий) обзор современных методов интеграции баз данных и Web и может быть полезна многим специалистам, разрабатывающим серьезные Web-приложения.

Web-Site Management: The Strudel Approach

Mary Ferndandez
AT&T Labs
mff@research.att.com

Daniela Florescu
INRIA Roquencourt
dana@rodin.inria.fr

Alon Levy
Univ. of Washington
alon@cs.washington.edu

Dan Suciu
AT&T Labs
suciu@research.att.com

Управление содержимым и структурой Web-сайтов представляет собой новую проблему, которая раньше не обсуждалась в сообществе баз данных. Для понимания этой проблемы необходимо рассмотреть задачи, возникающие при построении Web-сайта:

Выбор и обеспечение доступа к данным, которые должны демонстрироваться на сайте.
Разработка структуры сайта, т.е. распределение данных между страницами и расстановка ссылок.
Разработка визуального представления страниц.

При использовании существующих средств управления Web-узлами эти задачи являются большей частью независимыми. В трудно выполнять такие практически требуемые действия как автоматическая модификация сайта, реструктуризация, поддержка ограничений целостности структуры сайта и т.д. Для обеспечения естественного подхода к решению этих задач авторы представляют проблему с точки зрения управления данными. Разрабатывается система Strudel, в которой, в частности, поддерживается декларативные спецификации структуры и содержимого Web-сайта, и на основе этих спецификаций автоматически генерируется пригодный для использования через браузеры Web-сайт.

При использовании Strudel создатель Web-сайта прежде всего создает интегрированное представление данных, которые будут доступны на сайте. Исходные данные могут храниться во внешних источниках (например, базы данных или структурированные файлы) либо во внутреннем репозитории Strudel. Внешние или внутренние данные моделируются в виде помеченного направленного графа, что является типичным модельным представлением полуструктурированных данных. На следующем шаге в декларативной манере определяется структура Web-сайта с использованием соответствующих конструкций конструкций языка StruQL. При обработке этого определения создается граф сайта, моделирующий как структуру сайта, так и его содержимое. На третьем этапе разработчик определяет визуальное представление страниц в терминах языка HTML-шаблонов. Для каждого узла сайта на основе HTML-шаблонов генерируется HTML-текст, и конечным результатом является пригодный для использования на основе браузеров Web-сайт.

В статье приводится общее описание структуры системы Strudel. На простом примере иллюстрируются процедуры создания Web-сайта.

На наш вгляд, высшим достижением этой статьи является практическая демонстрация возможностей использования технологий более высокого уровня для создания Web-сайтов. Статья может быть интересна как практикам Всемирной Паутины, так и специалистам в области СУБД.

Connecting Diverse Web Search Facilities

Udi Manber Peter A. Bigot
Department of Computer Science
University of Arizona
Tucson, AZ 85721
{udi, pab}@cs.arizona.edu

В связи с постоянным расширением объемов доступной информации поиск информации становится одним из наиболее важных поддерживаемых компьютерами действий. К наиболее часто используемым поисковым средствам во Всемирной Паутине являются такие глобальные поисковые машины как Altavista, Infoseek, Excite, HotBot и Lycos. Они собирают из Web в одну большую базу данных насколько можно больше информации и обеспечивают возможность поиска по ключевым словам. Системы очень мощны, но их возможностей все еще недостаточно. Другого, возможно, даже более успешного подхода придерживаются разработчики поисковой системы Yahoo, в которой подбор и классификация Web-страниц производится вручную с помощью библиотекарей. Этот подход обеспечивает наличие гораздо меньшего объема информационного "шума", но и позволяет охватить меньше ресурсов. Задачей является предоставление пользователям улучшенных средств поиска, приспосабливаемых к конкретным нуждам, простых в использовании и достаточно эффективных.

В первой части статьи описывается метод поиска в Web, основанный на идее двухуровневого поиска. Метод позволяет сбалансировать глобальный плоский поиск и использование специализированных баз данных путем связывания многих разных поисковых средств на основе единого интерфейса. Устанавливается также баланс между слепым автоматическим подбором информации и ручным подбором особо качественных данных. Метод реализован и доступен в виде сервиса Internet под названием Search Broker. Во второй части описывается развитие этого подхода, называемое Universal Search Interface (USI), работа на которым ведется в настоящее время.

Авторы стремятся к достижению простоты средств поиска, делающей пригодными их для пользователей без специальной подготовки, не пытаясь добиться универсальности. Они желают обеспечить единый интерфейс к сотням существующих поисковых средств, который можно многими способами приспосабливать к конкретным нуждам пользователей. Хотя можно относиться к этой проблеме как к частному случаю проблемы интеграции баз данных, авторы не стремятся интегрировать все разные базы данных, существующие в Web. В частности, не поддерживаются запросы, вызывающие потребность в соединении двух отдельных баз данных. Запросы направляются одновременно ко многим базам данных в параллельном или последовательном режиме.

Статья должна быть интересна как разработчикам поисковых средств Internet, так и пользователям, испытывающим в настоящее время постоянные трудности и неудобства при поиске требуемой информации.

Mediating and Metasearching on the Internet

Luis Gravano
Computer Science Department
Columbia University
www.cs.columbia.edu/gravano

Yannis Papakonstantinou
Computer Science and Engineering
Department University of California, San Diego
www.cs.ucsd.edu/yannis

Все большее число пользователей желает направлять к информационным ресурсам Internet сложные запросы для получения требуемых им данных. Однако нахождение вручную информационных источников и направление к ним запросов являются проблематичными, поскольку имеется бесчисленное множество источников, различающихся типами своих информационных объектов и интерфейсами. Некоторые источники содержат текстовые документы и поддерживают простые модели запросов на основе списка ключевых слов. Другие источники содержат более структурированные данные и обеспечивают интерфейсы запросов в стиле реляционных языков. Поэтому пользователям для формирования результатов своих запросов приходится сливать информацию, удалять избыточности, выстраивать объекты ответов в нужном порядке и т.д.

Метапоисковые системы и медиаторы представляют собой сервисы, обеспечивающие пользователей виртуальным интегрированным представлением разнородных источников. Доступ к этому представлению производится в унифицированном интерфейсе, поддерживающем прозрачность местоположения, модели и локального интерфейса. Вертикальная архитектура метапоисковых систем и медиаторов идентична. Вокруг каждого источника данных строятся оболочки (wrapper), которые экспортируют представление соответствующих данных в общей модели и обеспечивают общий интерфейс запросов. Оболочка транслирует получаемый запрос в присущую данному источнику форму и производит обратное преобразование результатов запроса к общей модели. Метапоисковые системы и медиаторы взаимодействуют с оболочками и выполняют три основных задачи:

выбор баз данных;
декомпозиция общего запроса на фрагменты, адресованные к конкретным базам данных;
слияние рузультатов.

При наличии общей архитектуры и выполнении сходного набора функций медиаторы и метапоисковые системы различаются по своему назначению.

Метапоисковые системы обычно работают над документальными базами данных, и представление, обеспечиваемое ими пользователям, является разновидностью объединения этих баз данных. С другой стороны, медиаторы обычно интегрируют множество отношений или объектов с дополнительной информацией. При определении медиаторных представлений не является распространенным слияние объектов из нескольких баз данных. Сложность медиаторных представлений вынуждает использовать мощные языки определения представлений и запросов.
Взаимодействие пользователя с медиатором очень напоминает взаимодействие с системой реляционных баз данных: пользователь посылает запрос, и медиатор обычно возвращает полный ответ на этот запрос. Метапоисковые системы обычно имеют дело с неструктурированными текстовыми документами, и результатом запроса является упорядоченный на основе неразглашаемых алгоритмов набор документов. Соответствие запросу результирующих документов является "нечетким". Кроме того, в метапоисковых системах учитывает факт допустимости частичных ответов на запросы в поисковым системам Internet.

В статье приводится обзор методов, с помощью которых метапоисковые системы и медиаторы решают перечисленные задачи. Статья может быть интересной и для специалистов в области баз данных, и для квалифицированных разработчиков и пользователей мира Internet.

What can you do with a Web in your Pocket?

Sergey Brin Rajeev Motwani Lawrence Page Terry Winograd

За последнее десятилетие чрезвычайно увеличился объем оперативно доступной информации. Однако это сопровождалось значительным увеличением производительности процессоров, емкости дисков и пропускной способности сетей. В настоящее время для университетского исследовательского проекта возможно хранить и обрабатывать всю информацию World Wide Web. По причине ограниченной возможности человечества производить тексты, в следующих десятилетиях станет возможно хранить и обрабатывать все созданные человечеством тексты в карманных устройствах.

В статье описывается Stanford WebBase, локальный репозиторий существенной части информационных ресурсов Web. Обсуждаются эксперименты, направленные на регулирование размера и однородности WebBase. Во-первых, удалось в значительной степени автоматизировать процесс извлечения связи книг (пар название, автор) на основе сотен источников данных, рассредоточенных в Web. Для этого используется техника, названная авторами DIPRE (Dual Interactive Pattern Relation Extraction). Во-вторых, разработан метод глобальной установки весов Web-страниц PageRank, основанный на структуре связей Web, обладающих полезными свойствами для поиска и навигации. В-третьих, метод PageRank был использован для разработки новой поисковой машины Goodle. В статье подробно описываются эти эксперименты и их результаты.

Статья должна быть интересна всем интересующимся технологией Web и, в особенности, исследователям и разработчикам в области электронных библиотек.

Virtual Database Technology, XML, and the Evolution of the Web

STS Prasad and Anand Rajaraman
anand@junglee.com

Junglee Corporation
1250 Oakmead Parkway, Suite 310
Sunnyvale, CA 94086-4027
http://www.junglee.com

Описываемая в статье технология виртуальных баз данных (VDB - Virtual Database) дает возможность обращаться с информационными ресурсами World Wide Web и других внешних источников данных как с расширением корпоративной реляционной системы баз данных. Жизненно необходимые данные рассредоточены между Web-сайтами, файловыми системами, системами баз данных и унаследованными приложениями. Источники данных различаются способами организации данных, используемыми словарями и механизмами доступа к данным. Во многих случаях в них даже не поддерживаются собственные свойства запросов. Эта неоднородность делает трудной, а часто и неразрешимой задачу создания приложений, комбинирующих данные из таких источников.

Архитектурным ядром технологии VDB является VDB-сервер, представляющий для внешнего использования интерфейс SQL и тем самым доступный через ODBC или JDBC. Для каждого внешнего источника данных создается оболочка, позволяющая представлять любой такой источник как реляционную систему баз данных. VDB-сервер интегрирует эти отдельные реляционные базы данных в единую виртуальную базу данных.

В статье содержится немного технической информации, касающейся реализации VDB в случае наличия произвольных внешних источников данных. Не обсуждаются вопросы оптимизации запросов, управления транзакциями и т.д. Большее внимание посвящено возможностям, облегчающим создание оболочек Web-узлов при переходе от в основном используемого в настоящее время языка HTML к более развитому и более структурному языку XML.

Статья интересна прежде всего тем, что описывает, хотя и без важных технических деталей, практическое решение проблемы интеграции разнородных данных. За деталями авторы рекомендуют обращаться прямо к ним.