2009 г.
Базы данных: достижения и перспективы на пороге 21-го столетия
Под ред. Ави Зильбершатца, Майка Стоунбрейкера и Джеффа Ульмана
Источник: журнал Системы Управления Базами Данных # 3/1996, издательский дом «Открытые системы»
Новая редакция: Сергей Кузнецов, 2009 г.
Оригинал: Avi Silberschatz, Mike Stonebraker, Jeff Ullman, editors. Database Research, Achievements and Opportunities Into the 21st Century. Stanford University, Stanford, CA, USA, Technical Report: CS-TR-96-1563, Year of Publication: 1996. Текст доступен здесь.
Содержание
1. Введение
2. Достижения последних лет
3. Новые приложения баз данных
4. Тенденции, влияющие на исследования
в области баз данных
5. Новые направления исследований
6. Выводы
Литература
Отчет о семинаре NSF "Будущее исследований в области баз данных",
26-27 мая 1995 года1).
1. Введение
В феврале 1990 г. группа исследователей в области баз данных собралась,
чтобы обсудить направления будущих направлений исследовательских работ. Итоговый отчет
[Silberschatz at al., 1990] привлек внимание общественности к тому, насколько
значимы проводимые изыскания, а также к ряду сложных и важных проблем того
времени. Мы не станем повторять здесь основные положения этого отчета,
касающиеся исторического развития реляционных баз данных и систем обработки
транзакций. Заинтересованного читателя мы отошлем к упомянутому отчету
или к электронному документу [Gray, 1995], где рассматриваются исторические
достижения в этих и других областях исследований, связанных с базами данных.
В мае 1995 г. состоялся еще один семинар, на котором вновь обсуждались
перспективы развития баз данных; настоящая статья представляет собой отчет
об основных выводах, сделанных его участниками2).
Эти выводы кратко сформулированы в следующих пунктах.
- Сообщество исследователей в области баз данных играет фундаментальную
роль в создании технологической инфраструктуры развития баз данных.
- Грядущее поколение приложений баз данных потребует решения новых сложных
исследовательских проблем, которые в настоящем отчете сгруппированы в следующие
обширные классы: поддержка мультимедийных объектов, распределенное хранение
информации, новые виды приложений баз данных, управление транзакциями и
потоками работ, простота управления базами данных и их использования.
- В связи с техническими достижениями последних лет, такими как быстрый
рост емкости и мощности аппаратных средств, развитие коммуникаций (Internet
и Всемирная паутина – WWW, мобильные коммуникации), возникают новые области
исследований.
- Для успешного решения этих сложнейших проблем все более необходимой
становится поддержка со стороны правительственных и коммерческих структур.
В оставшейся части этого раздела мы коротко охарактеризуем два основополагающих
для данного отчета положения. Первое – радикально меняются требования,
предъявляемые к системам баз данных, и, для того чтобы "вписаться"
в новый прикладной ландшафт, необходимы новые подходы. Второе – сообщество
исследователей в области баз данных имеет длительный опыт успешного поиска
новых решений и их претворения в практические технологии. Таким образом,
поддержка жизнеспособности и активности этих исследований за счет общественных
ресурсов является разумным вложением средств.
1.1. Меняющийся мир управления базами данных
В своей основе система баз данных – это компьютеризованная система ведения записей; она позволяет сохранять информацию и обспечивает доступ к ней. Базовыми компонентами системы баз данных являются данные, аппаратура и программное обеспечение. Хотя эти элементарные компоненты продолжают оставаться фундаментальными компонентами системы баз данных, их масштабность, значимость и сложность неизмеримо выросли.
За последние пять лет наблюдается несомненная тенденция к усложнению структур данных.
Простые виды информации, представимой в форме чисел и символьных строк,
не утратив своей значимости, дополняются сегодня многочисленными мультимедийными
"документами", графическими образами, временными рядами, процедурными,
или активными данными и мириадами прочих сложных формами данных.
Характерные примеры новых видов и источников данных можно найти в разд.
2.2, 3, 4.2, 4.4, 5.1 и 5.2.
Еще один важный фактор – широкое распространение дешевых высокопроизводительных
компонентов, таких как мультипроцессоры на основе недорогих быстрых микропроцессоров.
Ежегодно мы наблюдаем также рост емкости и снижение стоимости доступных
и удобных в эксплуатации устройств дисковой и основной памяти.
В разд. 4.1 рассматривается влияние прогресса в области аппаратных средств
на развитие технологии баз данных.
Наконец, появляется новое поколение изощренных СУБД, поддерживающих
новые разновидности данных и способных полностью использовать преимущества современных
аппаратных средств. Обзор этих СУБД приводится в разд. 2.
Кардинальные изменения затрагивают не только вычислительную инфраструктуру;
подобную же революцию претерпевает сегодня и сообщество пользователей.
Едва ли не любое предприятие имеет в качестве своей органической составной
части систему компьютерной обработки информации. Мир пронизан "нервными
волокнами" разного рода электронных информационных коммуникаций –
от Всемирной паутины (WWW – World Wide Web,
разд. 4.4) с ее свободно масштабируемой связностью до поистине астрономической по своим масштабам Системы наблюдения
Земли (разд. 3.1). Расширение круга пользователей иллюстрируется в разд. 3, 4.4, 5.3.
1.2. Что дают исследования в области баз данных
Основная цель настоящего отчета – глубоко и всесторонне аргументировать
кардинальное значение исследований в области баз данных для всего развития
современных информационных систем и показать, что финансирование таких
исследований – это хорошо окупаемое вложение средств. Вторая цель – дополнить
отчет 1990 г. материалами, подтверждающими целесообразность финансирования
фундаментальных исследований в области баз данных. История изобилует примерами,
иллюстрирующими связь между фундаментальными исследованиями, коммерческим
успехом и практически значимыми результатами. Мы постоянно видим, как на
основе теоретических построений формируются рабочие идеи, которые реализуются
сначала в экспериментальных прототипах, а потом и в коммерческих продуктах.
Мы начнем (разд. 2) с рассмотрения некоторых областей, где исследования,
начавшиеся десять, а иногда и более лет назад, стали находить отражение
в программных продуктах начала 90-х годов. В этом разделе наглядно демонстрируется
отдача, получаемая от инвестиций в данную сферу. В разд. 3 дается обзор
новых типов приложений, которые определят направление будущих исследований.
В разд. 4 обсуждается контекст, в котором должны выполняться эти требуемые исследования. В разд. 5 сформулированы
наиболее важные, по убеждению участников семинара, задачи, стоящие перед
специалистами в области баз данных. В разд. 6 содержатся некоторые заключительные
замечания и выводы.
2. Достижения последних лет
С 1990 г., когда был опубликован отчет о предыдущем семинаре, в развитии технологии
баз данных достигнуты новые серьезные успехи. Наибольшую активность на
рынке баз данных проявляют компании США; предлагаемые ими продукты опираются
на результаты исследований и экспериментальные работы, выполненные при
финансовой поддержке государственных агентств. В этом разделе приведен
обзор некоторых достижений последних лет.
2.1. Объектно-ориентированные и объектно-реляционные СУБД
В 1990 г. существовало лишь несколько экспериментальных прототипов объектно-ориентированных
систем баз данных (OODB – object-oriented database). Тогда еще только велись
дебаты о природе таких систем и их взаимосвязи с реляционными системами.
Сегодня уже существует множество коммерческих OODB; годовой объем продаж
их составляет $75 млн. при ежегодном приросте 50%.
Аналогичным образом, в 1990 г. имелось лишь несколько исследовательских прототипов СУБД, сочетавших лучшие черты реляционных СУБД (доступ к простым данным на основе SQL) и систем OODB (моделирование
сложных данных). На их основе появились новые поколения
– "объектно-реляционных" (ORDB – object-relational database) и "дедуктивно-объектно-ориентированных"
(DOOD – deductive-object-oriented database) систем баз данных. Таким образом, сегодня
эти идеи уже воплотились в реальных технологиях и привели к созданию новых
рынков. Более того, и поставщики традиционных РСУБД начинают развивать
свои продукты в этих направлениях.
2.2. Поддержка новых типов данных
В отчете 1990 г. отмечалось, что в новых приложениях могут потребоваться
такие типы данных, которые не сводятся к простым записям из чисел и символьных
строк. С тех пор результаты исследований ряда других видов представления данных нашли свое отражение
в коммерческих продуктах.
- Результаты более чем десятилетней работы в области хранения и выборки пространственных данных воплотились ныне в коммерческих геоинформационных
системах (GIS – geographic information system).
- Длительные поиски адекватных моделей для представления темпоральных
данных вылились в ряд серьезных предложений по расширению языков запросов
и включению в них поддержки темпоральных данных. Широкую поддержку, например, получил язык TSQL2, являющийся расширением стандарта SQL-92.
2.3. Обработка транзакций
К числу основных обязанностей СУБД относится координация одновременной работы многих
пользователей с совместно используемой информацией. В отчете 1990 г. отмечалось, что
одним из важнейших достижений 70-х – начала 80-х годов явилась выработка
четкого определения управления транзакциями. Тем не менее, для современных распределенных
информационных систем традиционные способы обработки транзакций не всегда
оправданы. Изыскания в области стратегий и алгоритмов поддержки альтернативных,
не атомарных форм транзакций, восходящие к 70-м годам, начинают приносить сегодня
ощутимые результаты.
- В некоторых коммерческих продуктах поддерживается репликация данных, допускающая наличие согласованных представлений информации в разных узлах сети.
- В некоторых объектно-ориентированных системах поддерживаются так называемые
"длительные транзакции" (long transaction), когда данные могут изыматься из обращения
(check out) на период от нескольких часов до нескольких дней.
- В некоторых коммерческих системах баз данных также поддерживаются "версии" и "конфигурации",
т.е. обеспечивается возможность построения истории связанных объектов ("версий" данного объекта) и объединения конкретных версий разных объектов в "конфигурации". Эти возможности, наряду с "длительными транзакциями",
важны для поддержки различных видов проектирования, в том числе проектирования
программного обеспечения.
3. Новые приложения баз данных
Для того чтобы обосновать предлагаемый нами список первоочередных исследовательских
задач (разд. 5), мы проиллюстрируем их на примерах некоторых приложений
нового поколения, которые определяют потребности в новых средствах и возможностях.
Мы рассмотрим кратко пять таких приложений.
3.1. EOSDIS
Система наблюдения Земли (EOS – Earth Observing System) представляет
собой совокупность спутников, которые будет запускать NASA начиная с 1998.
Их назначение – сбор информации, необходимой для исследователей, занятых
изучением долгосрочных тенденций состояния атмосферы, океанов и земной поверхности.
Спутники будут поставлять информацию в объеме 1/3 петабайт (petabyte – 1015
байт) в год.
Предполагается, что эти данные будут интегрироваться с уже существующей
информацией, а также с данными из других источников (зарубежные спутники,
наземные станции наблюдения), и накапливаться в базе данных EOSDIS (EOS
Data and Information System) невиданных прежде масштабов.
EOSDIS предназначена для информационного обслуживания как специалистов,
так и неспециалистов. Предполагается, например, что доступ к ней будут
иметь даже школьники, которые смогут знакомиться с моделями формирования
погодных условий, с воздействием вулканических явлений и т.п. Вот наиболее
сложные задачи, возникающие в связи с этим проектом.
- Обеспечение оперативного доступа к базам данных объемом порядка петабайт, эффективное
управление третичной памятью.
- Поддержка многих тысяч потребителей информации, которые будут обращаться к системе с произвольными запросами, затрагивающими огромные объемы данных, а также требовать ежедневного обновления данных.
- Обеспечение эффективных механизмов просмотра и поиска требуемой информации.
3.2. Электронная коммерция
В настоящее время существует ряд проектов, общая цель которых состоит в том, чтобы предоставить
потенциальным потребителям оперативный доступ к каталогам товаров с последующим
электронным оформлением покупок. Предполагается, что возможным промежуточным
звеном подобных систем будет электронный брокер. Брокеры могут собирать данные
из нескольких источников, например, из нескольких
каталогов предметов одежды. Конечному покупателю такой брокер, в свою очередь, сможет предложить приобрести все требуемые товары в одном "магазине".
Как и проект EOSDIS, система электронной коммерции предполагает сетевое
взаимодействие огромного числа участников торговых сделок. Разница заключается
в том, что в EOSDIS имеется один главный поставщик информации и множество
ее потребителей, а торговая система подразумевает наличие множества поставщиков
и множества потребителей. Кроме того, участники в данном случае могут испытывать
определенное взаимное недоверие и, возможно, обладать своими проприетарными информационными системами. В подобной среде возникают следующие проблемы:
- Интеграция разнородных информационных источников. Например,
нечто, называемое "коннектором" в одном каталоге, может называться
иначе в каталоге другого поставщика. Требуемая "интеграции схемы" является хорошо известной и иключительно трудной проблемой.
- Для электронной коммерции требуются надежные средства
распределенной аутентификации и перевода денежных сумм.
3.3. Информационные системы здравоохранения
Врачу в процессе работы необходим доступ ко многим разным видам информации.
Например, медицинская документация одного пациента может находиться в разных больницах,
клиниках, страховых учреждениях. Для получения полной картины все это следует
собрать. Точно так же существует множество систем и баз данных, предоставляющих
информацию о лекарствах, лечебных процедурах, диагностических средствах.
Записи лечащего врача, результаты обследований, информация о счетах
за лечение, договора медицинского страхования для каждого пациента должны
фиксироваться в электронной форме и оставаться доступными для последующего
использования. Внедрение современных информационных технологий в области
здравоохранения окажет кардинальное воздействие на такие характеристики
медицинского обслуживания, как стоимость, качество, повсеместная доступность.
Вот ряд проблем, которые возникают в связи с реализацией подобной системы.
- Интеграция разнородных форм унаследованной информации.
- Средства контроля доступа, обеспечивающие конфиденциальность медицинской документации.
- Интерфейсы доступа к информации, удобные для разных категорий работников
здравоохранения.
3.4. Электронные публикации
В издательской индустрии, как и в сфере здравоохранения, в ближайщем
будущем ожидается ряд глубоких перемен. Становится возможным, например, хранение
книг и статей в электронном виде и оперативная доставка их потребителям
по высокоскоростным сетевым каналам. Далее, существенно
расширяется понятие документа, пригодного для публикации, – такой документ может содержать графические, аудио- или видеовключения,
аннотации, другие сопроводительные элементы. Общий объем информации, которая
доступна уже сегодня, превышает размеры базы данных EOSDIS, а в ближайшем
будущем ожидается его рост примерно на порядок.
Естественным следствием этих перемен станет сближение издательской и
образовательной сфер. Место "живых" лекций, читаемых для небольшого
числа студентов, займут "образовательные продукты" – электронные
документы, состоящие из текстовых, аудио- , видео- и других компонентов
и включающие элементы интерактивного тренинга. Такой продукт сможет удовлетворить
потребности огромного числа студентов. В связи с этими перспективами можно
обозначить следующие направления исследований.
- Обработка и пересылка очень больших объемов данных с высокой скоростью.
Типичный документ содержит объекты данных размером в диапазоне от мегабайт
до гигабайт и может требовать доставки в режиме реального времени.
- Защита интеллектуальной собственности. Подразумевается взимание небольших
денежных сумм за пользование информацией, запрет на ее перепродажу.
- Организация огромных объемов информации и обеспечение доступа к ним.
3.5. Коллективное проектирование
Крупные и сложные проекты, например, в области самолетостроения, реализуются
сегодня объединенными усилиями нескольких независимых компаний. Время жизни
информации, относящейся к подобным проектам, может измеряться десятилетиями,
поскольку она необходима для поддержки, модификации и развития. Конструкторские
решения, прежде чем стать физической реальностью, могут проходить стадии
компьютерного моделирования – для исследования рабочих свойств, удобства
сборки изделий, правильности функционирования. Эволюция конструкторских
схем начинается задолго до выпуска первого изделия и продолжается еще долгое
время после этого, что приводит к разрастанию информационной конфигурации,
которая должна отражать текущее состояние разработки, экспериментальные
версии, историческое развитие. Для разных сфер конструирования характерно
использование разнородных конструкторских инструментальных систем, основанных
на разных моделях и системах обозначений. Причем процесс конструирования
может продолжаться дольше, чем существуют применяемые инструменты, а значит,
компоненты одной и той же конструкции могут разрабатываться с применением
разных версий инструментальной системы. Все это вызывает потребность решения следующих проблем.
- Как и в упоминавшихся ранее прикладных областях, здесь также встает
задача интеграции разнородных источников, включая унаследованные источники.
- Для коллективного проектирования требуются новые формы управления параллельным
доступом к базам данных и механизмов совместного использования информации.
- Для регулирования совместно выполняющихся разнородных процессов, таких
как моделирование и конструирование, необходимы средства управления "потоками
работ" (workflow), в которых долговременные
транзакции взаимодействуют заранее специфицированным образом.
- Исключительно важна поддержка версий одиночных компонентов и конфигураций, объединяющих версии многих компонентов, см. разд. 5.3.3.
4. Тенденции, влияющие на исследования в области
баз данных
Прежде чем перейти к обсуждению программы исследований
в области баз данных, мы рассмотрим ряд тенденций, влияющих на эти исследования.
К ним относятся тенденции развития аппаратных средств, направления разработок компаний-производителей СУБД, деловой и научный климат, технологии WWW.
4.1. Технологические тенденции
Вот уже в течение пятидесяти лет наблюдается непрерывно ускоряющееся совершенствование основных
параметров вычислительных средств. Каждый из перечисленных ниже показателей
за каждое десятилетие улучшается в десять и более раз:
- число машинных команд, выполняемых в секунду;
- стоимость типичного процессора;
- стоимость относительной единицы вторичной памяти;
- стоимость относительной единицы оперативной памяти.
Благодаря столь быстрому улучшению соотношения цена/производительность
наиболее критичных компонентов, каждые несколько лет мы приобретаем
возможности для решения новых классов задач, создания принципиально новых
приложений и услуг, которые прежде находились за пределами реальности.
Мы ожидаем, что эти тенденции не ослабеют и в следующем тысячелетии. Более
того, в последние годы эта мощная спираль развития получила дополнительную
динамику за счет еще двух важнейших параметров, совершенствование которых
приобрело в последние годы невиданное ускорение:
- стоимость пересылки одного бита информации;
- число бит, пересылаемых в секунду.
Таким образом, сегодня мы имеем среду, где можно экономически эффективно
реализовать сложнейшие запросы, манипулирующие с терабайтами данных.
4.2. Архитектурные тенденции баз данных
В сфере организации и способов применения баз данных также наблюдаются весьма значительные перемены,
хотя и не столь впечатляющие, как в областях аппаратных средств и коммуникаций. Мы отмечаем следущие факты:
- Если в 1990 г. реляционные системы все еще продолжали вытеснять более ранние СУБД, то сегодня они применяются практически повсеместно. Реляционные базы данных применяются в приложениях, спектр которых варьируется от крупнейших, выполняемых
на мощных параллельных архитектурах типа NCR 3600, до тех, которые работают
на домашних компьютерах.
- Архитектура клиент-сервер за последние пять лет распространилась с файловых систем на системы баз данных. Мы ожидаем, что все более распространенным будет становиться удаленный сетевой доступ к серверам
баз данных.
- Традиционные данные, основанные на структуре записей, которые были характерны для реляционных баз данных пять лет назад, дополняются
сегодня разноообразными видами "мультимедийных" данных. Эта тенденция способствует успеху ORDB и заставляет поставщиков реляционных систем совершенствовать
свои продукты, включая в них поддержку более развитых моделей данных. Короче говоря, чисто реляционные СУБД станут в ближайшем десятилетии унаследованными системами.
4.3. Исследования и деловой климат
Экономика исследований и разработок за последние пять лет претерпела значительные
изменения. Вообще говоря, корпорации, которые традиционно поддерживали фундаментальные
исследования, вынуждены сократить их финансирование в связи со
снижением прибыльности многих видов продуктов и сервиса. Произошла переориентация
инвестиций в пользу краткосрочных исследовательских проектов, направленных не
на создание прототипов систем, а на непосредственное удовлетворение
потребностей рынка. Аналогичная переориентация наблюдается и в деятельности
правительственных исследовательских организаций, которые также ощущают потребность в переориентации
от долговременных к краткосрочным проектам, предполагающим быструю отдачу.
В то же время у нас есть основания полагать, что значение исследований
в области баз данных позитивно оценивается в правительственных кругах и индустрии. Рост информационно емких отраслей
индустрии и значимость повышения эффективности всех видов бизнеса – эти
два фактора ставят развитие технологий баз данных едва ли не во главу угла
корпоративных интересов.
Тенденции промышленных исследований в сфере баз данных, хотя и противоречивы,
имеют, тем не менее, ряд позитивных моментов. Многие компании, которые за
последнее время реструктурировали свои исследовательские подразделения,
предпочли сохранить или даже расширить объем изысканий в области баз данных.
Некоторые компании ограничили свои интересы системами баз данных,
имеющих статус продуктов, оказавшись, фактически, вне исследовательского
сообщества; в то же время другие компании, не рассматривавшие пять лет назад базы
данных как центр своих интересов, начали активно создавать подразделения
по исследованиям в области СУБД.
4.4. Информационная супермагистраль проходит через вашу квартиру
Ни одна дискуссия футурологического толка не обходится без разговоров
о Всемирной паутине (World-Wide Web, для краткости WWW, или просто Web). Пока идут разговоры о природе "Информационной
супермагистрали" или "Национальной информационной инфраструктуры",
Web – неформальная совокупность взаимосвязанных и распределенных в
сети документов, которые основываются на HTML
(Hypertext Markup Language) – разрастается поистине астрономическими темпами. В настоящее время число
бит Web, пересылаемых по каналам Internet, увеличивается на 15-20% в месяц, что
соответствует десятикратному годовому росту.
Число активных пользователей WWW в США превышает, по некоторым оценкам,
10% населения. Исходя из аналогичных тенденций, наблюдавшихся при распространении технологий
типа VCR или аудио CD, мы предполагаем, что через несколько лет пользователями
Internet станет подавляющее большинство населения. За эти годы на несколько
порядков возрастет объем информации, доступной и используемой через Internet. Следует
ожидать, что регулярный доступ к данному источнику информации станет насущной
потребностью каждого индивидуума.
Базы данных и связанные с ними технологии будут играть ключевую роль
в этом информационном взрыве. Уже сегодня "Web-мастера" (администраторы
узлов WWW) осознают себя фактически администраторами баз данных. На многих
узлах WWW начинают применять технологии баз данных, не видя другой возможности
держать под контролем растущее число хранимых объектов. В ряде случаев узлы Web уже являются аналогами традиционных приложений баз данных типа
электронных каталогов, где WWW играет роль инфраструктуры.
5. Новые направления исследований
На том фоне, который был кратко обрисован выше, наиболее важными для
реализации новых поколений прикладных систем представляются, по мнению
участников семинара, следующие исследовательские задачи. Мы разделили их
на пять основных категорий.
- Проблемы включения мультимедийных объектов в базы данных.
- Новые парадигмы распределенного хранения информации.
- Новые области применения баз данных.
- Новые модели транзакций.
- Простота использования баз данных и управления ими.
5.1. Поддержка мультимедийных объектов
Взрывообразный рост WWW, а также потребности областей EOSDIS, электронной коммерции, электронных
публикаций порождают ряд сложных проблем, которые должны быть решены в будущих
системах баз данных. Ниже рассматриваются важнейшие направления исследований, связанные с поддержкой
мультимедийных данных.
5.1.1. Третичная память
Для хранения мультимедийных объектов требуются огромные объемы внешней
памяти, что ставит перед нами новые проблемы. Как упоминалось в разд. 3, для приложений типа EOSDIS или электронных
библиотек характерны объемы данных масштаба петабайт. Несмотря на экспоненциальный
рост емкости дисковых устройств, для размещения данных подобного объема
вряд ли можно будет в ближайшем будущем обойтись только магнитными или магнитооптическими
дисками. В результате встает проблема эффективного управления новым уровнем
иерархии хранения данных, называемым третичной (tertiary) памятью. На третичном
уровне используются носители на несколько порядков более медленные, чем на уровне
"вторичной памяти" (дисков), но зато и гораздо более емкие. Устройства третичной памяти –
это накопители типа стоек с компакт-дисками или магнитными лентами, где
для установки нужной кассеты или ленты обычно используется механическая рука.
Доступ к третичной памяти осуществляется путем буферизации
выбранных элементов данных во вторичной памяти, подобно тому, как доступ
к вторичной памяти осуществляется путем буферизации дисковых блоков в оперативной
памяти. Но объемы и пропорции данных здесь совершенно иные, и подходы к
оптимизации обменов между вторичным и третичным уровнями существенно отличаются
от методов оптимизации обменов между вторичной и оперативной памятью. Например, сегодня в качестве третичного носителя используются, в основном,
кассеты с магнитными лентами. Здесь приходится учитывать не только то,
что скорость считывания данных с ленты (секунды) на три порядка ниже, чем
с диска (миллисекунды), но и то, что нахождение нужных данных в середине
кассеты может увеличить время доступа еще на 1-2 порядка. Время доступа
к данным на диске, напротив, мало зависит от их положения. Таким образом,
при хранении данных на ленте необходимо решать задачу их оптимального размещения,
в то время как для диска этот фактор далеко не настолько важен.
5.1.2. Новые типы данных
Для каждого вида мультимедийной информации (типа данных) требуется собственный
набор операций и функций и их эффективная реализация на основе соответствующих
структур данных и методов доступа. Например, при
недавнем экспериментальном тестировании объектно-ориентированных систем
было отмечено огромное расхождение в эффективности обработки больших
текстовых объектов. Задача выборки последнего байта из текстовой строки
длиной в мегабайт в одних системах решалась путем считывания сначала всего текста
с последующим применением операции "взять последний байт", а в других – имелась возможность выборки только последнего байта или небольшого хвостового участка строки. Тщательного осмысления
в связи с этим требуют следующие вопросы.
- Набор операций для каждого типа мультимедийных данных, издержки их реализации.
- Интеграция данных, относящихся к нескольким таким типам.
5.1.3. Качество обслуживания
С доставкой мультимедийных данных сразу нескольким пользователям связан
ряд новых исследовательских проблем. В общем случае, если объем данных велик, доступ к ним и доставка результатов выборки могут стать узкими местами. Однако доступ к большим мультимедийным объектам часто
осуществляется в очень предсказуемой манере. Например, видеосервер,
доставляющий фильмы в несколько домашних видеосистем, может исходить из
предположения, что каждый запрос на последовательный просмотр со стандартной скоростью
будет оставаться в силе, пока пользователь не нажмет кнопку "стоп".
Предсказуемость позволяет оптимизировать реализацию запросов, причем подобные
предположения обычно достаточно хорошо оправдываются.
Доставка мультимедийной информации во многих случаях должна удовлетворять
довольно жестким ограничениям. Так, видеофильм должен доставляться с фиксированной скоростью, иначе будет наблюдаться мигание и задержки кадров. Еще более
жесткие ограничения накладываются на процесс доставки аудиоинформации,
ассоциированной с фильмом. Если неравномерность доставки видеокадров можно
компенсировать за счет алгоритмов интерполяции, которые дают достаточно
хороший эффект, то для аудиоданных это невозможно. Ситуация усложняется
еще и тем, что разные типы аудио- и видеоинформации обладают разной степенью
"терпимости" к погрешностям воспроизведения. Так, для видеокурса
лекций допустимой может быть скорость доставки 1 кадр в секунду и ниже,
поскольку значимым здесь является только изображение записей, которые лектор
делает на доске, или слайдов, которые он показывает.
Эти примеры показывают потребность в исследованиях "качества обслуживания".
Для каждой формы мультимедийных данных требуется ответить на следующие вопросы.
- Как обеспечить своевременное и реалистичное представление
данных в естественной для них форме?
- Если система не в состоянии обеспечить ожидаемое качество
обсуживания, то каковы допустимые способы частичной компенсации? Возможна ли
интерполяция или экстраполяция отдельных видов данных? Следует ли отвергать
вновь поступающие запросы и нужно ли отменять уже принятые?
5.1.4. Запросы с нечеткими критериями
Запросы к базе данных традиционно оперируют с четкими понятиями, например:
"каков пункт назначения рейса номер 233?" или "каков остаток на счете номер 45678?". Многим новым приложениям приходится иметь дело с запросами, включающими нечетко определенные понятия, которые
позволяют находить наилучшее доступное значение из нестрого определенного
набора слабо интегрированных ресурсов. Если, допустим, нам захотелось
бы получить снятое со спутника изображение заданного района в заданное
время, то следовало бы запросить у EOSDIS "наилучшее" в каком-то смысле
приближение. Возможно, это будет изображение, включающее данный район и
наиболее близкое по времени к интересующему моменту. Для этого требуется
выработать новые языки запросов или усовершенствовать существующие языки, включив
в них в качестве базовых такие понятия, как степени свободы и желаемая
точность приближенного результата.
Имеются экспериментальные системы, которые умеют выбирать из базы данных
графические образы на основе таких нечетких характеристик, как цвет, форма,
текстура. Системы этого типа потенциально способны по нечеткому описанию
содержимого производить выборки в среде графических образов, аудио- и видеоинформации,
подобно тому, как существующие системы позволяют выбирать текстовые или
числовые данные по значению какого-либо поля. Но реально здесь необходим
еще значительный объем исследований.
5.1.5. Поддержка пользовательских интерфейсов
SQL и надстраиваемые над ним языковые формы более высокого уровня хороши
для доступа к данным, структурированным в записи. Когда речь идет о мультимедийных
данных, часто необходимы совершенно другие формы пользовательских
интерфейсов, и СУБД должны их поддерживать. Например, запросы географических
данных (карт) удобнее всего формулировать, указывая интересующий район
на схеме материка (страны, города и т. п.), изображенной на экране, и очень
сложно, если не невозможно, сформулировать такой запрос в терминах SQL.
Для упоминавшихся в разд. 5.1.4 баз данных графических образов необходимы
интерфейсы, позволяющие задавать цвета, формы и другие характеристики изображения.
С каждым типом мультимедийных данных связана проблема создания простых
средств для формулирования запросов.
В связи с мультимедийными видами информации возникает также проблема
разработки новых средств для просмотра, поиска, визуализации содержимого мультимедийных
баз данных. Например, курс лекций может содержать десятки часов видеоматериала.
Естественно, хотелось бы иметь способы быстрого просмотра, чтобы решить,
стоит ли этот курс заказывать, или чтобы отыскать в нем, скажем, десятиминутный
или часовой фрагмент по интересующей теме. Нужны соответствующие методы
доступа, и здесь возможны самые разные подходы – это могут быть наборы
ключевых кадров, текстовые индексы, средства поиска сегментов, обладающих
заданными характеристиками.
Еще один пример – снимки, полученные со спутников. Как правило, их объем
велик, и передача множества снимков, среди которых пользователь будет искать
нужные ему, требует слишком много времени. Здесь может помочь выборка фрагментов,
содержащих существенные элементы исходных снимков. В результате человек
получает возможность быстро просмотреть большое число изображений и отобрать
то, что его интересует, например снимки вулканических выбросов.
Приведенные здесь примеры можно экстраполировать и на другие ситуации,
когда необходимо предоставить пользователю средства для быстрой и эффективной
визуализации содержимого больших объектов данных. Это одна из важнейших проблем следующего поколения систем баз данных.
5.2. Распределение информации
Как уже упоминалось, WWW – это распределенная среда, состоящая из автономных
систем, узлы которой все чаще формируются как реляционные базы данных.
Точно так же пользование электронными публикациями предполагает наличие
распределенной системы, в которой имеется довольно низкий уровень доверия между
клиентом и сервером. Хотя исследовательское сообщество весьма интенсивно
занималось вопросами распределенных баз данных, и плоды этих усилий находят
отражение в коммерческих продуктах, новая среда, возникшая
в рамках WWW, заставляет переосмыслить многие концепции существующей технологии распределенных
баз данных. В настоящем разделе обозначены основные направления исследований
в этой области.
5.2.1. Степень автономности
Базы данных и другие источники информации, связанные посредством сети,
зачастую принадлежат разным владельцам. Примерами такой ситуации могут
служить распределенные системы здравоохранения (разд. 3.3),
распределенные системы проектирования (разд. 3.5), а также WWW. Автономность
участников распределенной системы создает множество специальных проблем
в распределенных системах баз данных.
В распределенной системе необходимо предусмотреть ситуации, когда отдельные
партнеры отвергают запросы на подключение. Разные партнеры могут использовать
системы с разными возможностями. Например, в системах проектирования наилучшим
способом поддержки согласованности будут распределенные ограничения или
активные правила, возбуждающие проверку условий, которые могут охватывать
нескольких автономных партнеров. Как обеспечить соблюдение необходимых условий, если
отдельные участники не имеют или не хотят использовать в своих системах
механизмы активных правил?
5.2.2. Учет и расчеты
В локально автономных системах сервер может в уплату за предоставление
сервиса потребовать перечисления определенной денежной суммы. В прежних
распределенных СУБД предполагалось, что вся информация является собственностью
одной корпорации, и этот "неудобный" вопрос не возникал.
В среде, где информация является предметом продажи, необходима реализация
новых стратегий для "измерения" услуг и взимания с пользователей
небольшой суммы за каждый доступ к удаленным данным. Эффективный
сбор таких средств также составляет предмет исследований. Разумеется, нецелесообразно
тратить рубль на то, чтобы получить с пользователя копейку.
Еще один интересный вопрос – выработка стратегий реализации запросов
с учетом их денежной стоимости. Допустим, вас интересует библиография публикаций
о динозаврах. Местный музей предоставляет информацию бесплатно, но она
может быть менее полной, чем та, которой располагает коммерческая библиографическая
служба. Желательно, чтобы механизм реализации запросов учитывал плату,
взимаемую разными источниками, и использовал бы, в первую очередь, бесплатные
источники. Предположим, что после извлечения бесплатных данных запрос к
дорогостоящему источнику был бы сформулирован следующим образом: "Пришлите
список всех публикаций о динозаврах, за исключением следующих 2000, о которых я уже знаю". Логично предположить, что коммерческая служба отвергнет
подобный запрос, реализация которого потребует больших затрат ресурсов,
а результат, скорее всего, окажется мизерным или пустым, и плата за него
будет невелика (что, впрочем, зависит от алгоритма вычисления стоимости).
Задача исследователей состоит в разработке согласованных механизмов ценообразования,
сервисных политик, алгоритмов оптимизации с учетом цен, алгоритмов обработки
счетов за обслуживание.
5.2.3. Безопасность и конфиденциальность
В распределенных системах, включающих автономных партнеров, требуется поддержка безопасности информации. Во многих случаях это нужно для обеспечения
конфиденциальности персональных данных. Например, информационная система здравоохранения
должна беспрепятственно предоставлять информацию о пациенте его лечащему
врачу, но обязана защитить ее от несанкционированного доступа. В других
случаях необходимость защиты связана с коммерческой ценностью данных. Примеры
– распределенное проектирование (разд. 3.5) и электронные публикации (разд.
3.4). Можно выделить следующие важные направления исследований.
- Разработка исключительно гибких систем аутентификации и авторизации,
поддерживающих доступ на основе разнообразных "ролей", исполняемых пользователями. Так,
один и тот же индивид может выступать в роли лечащего врача некоторого
пациента, в роли "врача вообще" или в роли частного лица.
- Выработка механизмов для продажи информации большому числу
пользователей, личности которых неизвестны продавцу.
5.2.4. Репликация и согласование данных
Фундаментальная проблема управления распределенной базой данных – нахождение
способов функционирования в ситуации, когда сеть распадается на две или
более несвязанные группы узлов. Когда врач садится в самолет, имея при
себе историю болезни своего пациента, он должен иметь возможность вносить
в нее записи, т.е. изменять содержимое базы данных, несмотря на то, что
он отключен от сети, пока находится в самолете.
Разумеется, компоненты базы данных, связь между которыми сохраняется,
должны продолжать функционировать независимо наилучшим возможным способом.
Запросы на выборку и модификацию данных, затрагивающие доступные узлы,
должны выполняться, а остальные – отвергаться.
Из соображений эффективности данные часто реплицируются на нескольких
узлах. Когда все эти узлы связаны сетью, можно поддерживать идентичность
копий. Однако в ситуациях, когда связь нарушается, в копиях могут появиться различия.
После восстановления связи должен включаться механизм согласования (reconciliation), который должен согласовать все копии и сформировать одну новую копию, отражающую все сделанные изменения.
С точки зрения традиционных распределенных баз данных, утрата связности
сети – это случай исключительный, аномальный, и поэтому процесс восстановления
и согласования данных мог быть сложным и занимать относительно много времени.
В новой информационной среде, как показывает приведенный выше пример, подобные
ситуации становятся уже не исключением, а нормой. Отсюда необходимость
создания быстрых протоколов и алгоритмов согласования.
Отметим также, что, в связи с растущей зависимостью производственных
процессов от информационных систем, для многих приложений необходимым требованием
становится стопроцентная доступность, или, как это иногда обозначают, "доступность
7х24" (7 дней в неделю х 24 часа в сутки). Некоторые проблемы повышения
надежности решаются за счет совершенствования аппаратных средств. Однако
в среде баз данных для повышения доступности необходимо исследование новых
репликационных схем, обеспечивающих идентичность копий данных и корректное
функционирование системы в условиях отказа отдельных компонентов.
5.2.5. Интеграция и преобразование данных
Крупные информационные системы типа систем поддержки здравоохранения,
обсуждавшихся в разд. 3.3, подразумевают наличие взаимосвязи информационных
ресурсов, основанных на самых разных форматах и моделях данных. По-видимому, подобные системы должны иметь в качестве центрального
звена некоторую интегрирующую модель и соответствующую нотацию. Каждый
источник данных обертываться (wrapped) некоторым компонентом, осуществляющим преобразования между частным представлением источника данных и глобальным представлением, принятым
в интегрируемой среде. На основе этих "обернутых" источников затем
могут создаваться прикладные продукты более высокого уровня.
С проблемой преобразования и интеграции данных связано много вопросов.
- Какой должна быть интегрирующая модель?
- Какой нужен инструментарий, чтобы сделать использование
произвольных источников данных в интегрированных системах столь же простым, как работу с индивидуальными
базами данных?
- Как расширить идею словаря данных, чтобы обеспечить корректное
использование терминологии в среде, состоящей из интегрированных гетерогенных
источников? Эта проблема, по существу, совпадает с "онтологической
задачей" искусственного интеллекта.
- Один из подходов к проблеме комбинирования разнородных источников
информации состоит в применении медиаторов (mediator), компонентов, которые
могут производить настраиваемую интеграцию, возможно, с дополнительной
фильтрацией или обработкой. По своей роли они аналогичны "агентам"
сообщества искусственного интеллекта. Как лучше всего применить здесь этот
подход – еще одна важная исследовательская тема.
5.2.6. Выборка и обнаружение данных
Очевидно, все больше и больше информации будет доступно в Web, коллекции неформально
связанных ресурсов Internet. Неформальность и распределенный характер управления
в среде Web представляют разительный контраст в сравнении со структурированностью
и управляемостью, характерными для современных распределенных баз данных.
Возникновение этой новой среды еще раз подтверждает важную роль инструментов для интеграции
гетерогенных информационных ресурсов, которая отмечалась в отчете [Silberschatz
at al., 1990].
Однако природа Web порождает ряд новых проблем, а также примеров,
которые иллюстрируют крайние случаи многих проблем, связанных с гетерогенной
информационной средой. Например, приходится иметь дело со следующим:
- Имеются данные с нечеткой схемой, которая может произвольно меняться, или
с нерегулярной структурой.
- Данные, не имеющие четкого определения и/или обладающие неизвестной достоверностью.
- В рамках технологий СУБД выработаны эффективные механизмы индексации
и другие средства поддержки поиска для хорошо структурированных данных;
очень важно расширить подобные механизмы и адаптировать их к неструктурированному
миру Web.
5.2.7. Качество данных
В силу ненадежности механизмов ввода информации всегда существовала
проблема проверки правильности содержимого баз данных. В новых приложениях
информация часто комбинируется на основе разных источников,
степень надежности которых различна. Следовательно, требуются методы для
оценки достоверности полученной таким образом информации. Нужны также средства
для опроса достоверности или происхождения (lineage)
данных. В идеале понятия достоверности и происхождения должны стать базовыми
для новых языков запросов.
5.3. Новые применения баз данных
Традиционно системы баз данных использовались для поддержки приложений обработки бизнес-данных, и основные направления исследований были ориентированы
именно на этот класс приложений. В последнее время образовались новые важные
области применения баз данных, и каждая из них представляет принципиально
новую среду, к которой необходимо адаптировать технологии СУБД. Эти
области получили на рынке названия интеллектульного анализа данных (data mining), хранилищ данных (data warehousing),
репозитариев данных (data repository), и далее мы их по очереди обсудим.
5.3.1. Интеллектуальный анализ данных
Идея интеллектульного анализа данных (data mining), т.е. извлечения информации из огромных массивов
данных, накопленных совсем для других целей, вызывает сегодня
повышенный энтузиазм. Например, авиакомпании добиваются оптимального заполнения
рейсов за счет анализа накопленных ранее данных о резервировании
билетов. Можно привести еще одну совершенно замечательную историю о том,
как была обнаружена неожиданная корреляция между покупками пива и покупками
салфеток в послеобеденный период. Владелец магазина приблизил друг к другу
отделы, торгующие пивом и салфетками, а между ними поместил еще прилавки
с картофельными чипсами. В результате увеличились продажи всех трех видов
товара.
С запросами, характерными для систем интеллектульного анализа данных, связан ряд необычных
проблем.
- Они включают, как правило, агрегацию огромных объемов данных.
- Они имеют нерегламентированный характер; их формулируют
лица, ответственные за принятие решений, когда им необходимо выявить какие-либо
неочевидные взаимосвязи.
- В приложениях, связанных, например, с торговлей ценными бумагами,
очень важно малое время ответа. Суть проблемы состоит здесь в том, чтобы
сократить общее время, необходимое для написания, отладки и выполнения
запроса.
- Довольно часто пользователь не в состоянии точно сформулировать
запрос – ему просто нужно обнаружить "что-нибудь любопытное".
Таким образом, с добычей данных связаны следующие исследовательские
направления.
- Методы оптимизации сложных запросов, включающих,
например, агрегацию и группирование.
- Методы поддержки "многомерных" запросов, относящихся к данным,
организованным в виде "куба", в ячейках которого находятся интересующие
данные (например объемы продаж). "Измерениями" такого куба могут
быть дата продажи, название магазина, наименование товара, цвет, поставщик.
- Методы оптимизаци использования третичной памяти.
- Языки запросов очень высокого уровня, а также интерфейсы для поддержки
пользователей, не являющихся экспертами, которым нужны ответы на нерегламентированные
запросы.
5.3.2. Хранилища данных
В хранилище данных накапливаются данные из одной или более баз данных.
Существует множество потенциальных применений, а также подходов к организации
хранилищ данных. Например, крупный магазин может поддерживать хранилище данных на основе транзакционных данных о кассовых операциях для целей добычи данных (разд. 5.3.1). В хранилище данных может сохраняться информация из многих баз данных для использования в чрезвычайных ситуациях. Например, в едином хранилище данных поддерживаются сведения о гражданской инфраструктуре (дороги, мосты, трубопроводы
и т.п.), поскольку, например, после землетрясения вряд
ли удастся получить эту информацию из городов, находящихся вблизи эпицентра.
Еще один пример – использование хранилища данных как "материализованного представления" интегрированной информации. В 5.2.5 обсуждалась
идея медиаторов, которые дают целостное представление данных, извлеченных
из множества источников. Альтернативой медиаторных систем могут служить
хранилища данных, обеспечивающие физическое хранение интегрированных данных.
В отличие от хранилищ, медиаторы предоставляют информацию, рассылая запросы
нескольким источникам, подобно тому, как это происходит при реализации
представлений.
Некоторые исследовательские проблемы, касающиеся хранилищ данных, совпадают
с теми, которые характерны для интеграции данных в целом, но есть и некоторые
специфические проблемы.
- Инструменты для создания насосов данных (data pump), т.е. модулей, функционирующих
над средой источников данных и поставляющих в хранилище те изменения, которые
существенны с точки зрения хранилища; при этом данные должны транслироваться
в соответствии с глобальной моделью и схемой хранилища.
- Методы "чистки данных" (data scrubbing), которые обеспечивают согласование
данных, удаление элементов, соответствующих разным представлениям одного
и того же объекта (например "Sally Tones" и "S.A. Tones"),
а также удаление неправдоподобных значений.
- Средства для создания и поддержания метасловаря, информирующего
пользователей о способах получения данных.
5.3.3. Репозитарии
Приложения, относящиеся к категории репозитариев, характеризуются тем, что они предназначаются для хранения и управления как данными, так и метаданными, т. е. информацией
о структуре данных. Примеры репозитариев – базы данных для поддержки компьютерного
проектирования, включая CASE (системы проектирования программного обеспечения),
а также системы управления документами. Отличительная черта этих систем
– частые изменения метаданных, характерные для любой среды проектирования.
- В репозитарии необходимо поддерживать множество представлений одной
и той же или схожей информации. Например, программный модуль имеет представление
в виде исходного кода, объектного кода, промежуточного кода, готовой программы,
таблиц использований/определений, документации. Связи между всеми этими
представлениями должны отслеживаться репозитарием так, чтобы изменения
в одном из них автоматически распространялись на остальные представления
того же объекта.
- Репозитарии должны поддерживать понятие версий (моментальных снимков элементов данных, меняюшихся во времени) и конфигураций (версионных коллекций версий).
Например, разные релизы программной системы будут обычно формироваться как конфигурации
из определенных версий файлов исходного кода.
- Репозитарий должен поддерживать эволюцию структуры информации и ее
метаданных таким образом, чтобы при добавлении новых свойств данных или
новых связей не требовалась полная перекомпиляция.
Цель исследований в этой области – создание "систем управления
репозитариями", подобных сегодняшим СУБД.
5.4. Управление потоками работ и транзакциями
По мере того как базы данных получают все более широкое распространение,
и сферы их применения выходят за рамки, предусмотренные бизнес-сообществом,
традиционная модель транзакций перестает быть удовлетворительной. Транзакции
сейчас могут охватывать множество "независимых" баз данных и
не ограничиваться кратким промежутком времени.
5.4.1. Управление потоками работ
Часто бизнес-процессы включают и компьютеризованные шаги, где используются
базы данных и другие информационные ресурсы, и шаги, где требуется вмешательство
персонала. Например, отчет о командировке сначала заполняется сотрудником вручную,
затем секретарь вводит его в компьютерную систему, где он автоматически
преобразуется в формат бланка для возмещения затрат, после чего направляется
клерку, который принимает его или отвергает, используя электронные средства.
Если отчет принят, то он направляется в бухгалтерскую подсистему, которая запоминает
сумму расходов и генерирует чек. Еще более необходимы средства управления
потоками работ, интегрированные в СУБД, если процесс включает обработку
мультимедийных документов. Оцифровка бумажного документа включает последовательность
шагов, требующих человеческого вмешательства: сканирование, оптическое
распознавание текста, проверка и исправление ошибок, регистрация обработанного
документа.
Как показывают эти примеры, подобные процессы требуют специальных способов
управления данными с поддержкой последовательности взаимозависимых событий.
Причем, с некоторыми из этих событий могут быть связаны длительные задержки,
например, если клерк находится в отпуске, а заменяющий его сотрудник ушел
обедать. Алгоритмы обработки могут включать ветвления и даже откаты, если,
скажем, отчет отвергнут, и его необходимо исправить для последующего принятия.
Так же, как и для репозитариев (разд. 5.3.3), требуются
соответствующие системы управления потоками работ, поддерживающие
специфические для этих приложений требования. Требуются также специальные инструменты
для проектирования и создания потоков работ, а также для управления ими.
С технологиями потоков работ связаны и новые модели транзакций, которые
обсуждаются в 5.4.2.
5.4.2. Альтернативные модели транзакций
Транзакции – это единицы обработки данных, обладающие свойствами, существенными
с точки зрения традиционных СУБД: атомарность (выполняются либо все действия,
либо ни одного), сериализуемость (разные транзакции не оказывают неожиданного
воздействия друг на друга) и долговечность (если транзакция зафиксирована,
то ее результат не пропадет даже в случае краха системы). Эти свойства
сохраняют свою значимость и для многих новых приложений, однако принятые
методы реализации транзакций часто оказываются неработоспособными. Некоторые
приложения требуют очень продолжительных шагов, как, например, системы
проектирования, где инженер изымает из обращения элементы конструкций на
несколько часов или дней. Еще один пример – системы управления потоками
работ, где действия, выполняемые персоналом, могут также занимать многие
часы или несколько суток.
Были предложены альтернативные модели, основанные на концепциях вложенных
транзакций, когда одна длительная транзакция разбивается на более мелкие
шаги, и транзакций-"саг" (saga), для которых обеспечивается возможность отменять результаты шагов, которые оказываются
заблокированными последующими шагами. Необходимо усовершенствовать эти
модели и развить их таким образом, чтобы обеспечить поддержку более широкого
класса транзакций, в том числе для приложений CAD и потоков работ, а также
других типов систем, которые будут появляться по мере интеграции большого числа автономных
информационных источников.
5.5. Простота использования
По мере того как возрастает значение информации в обществе, столь же
быстро растет и роль баз данных. К небольшому числу крупных систем, существовавших
несколько лет назад, присоединилось огромное количество более мелких систем
(а также новые крупные). Однако сложность развертывания и использования подобных систем
не соответствует темпам их распространения.
СУБД следующего поколения должны обладать более совершенными интерфейсами,
причем не только для конечного пользователя, но и для прикладного программиста
и администратора. Целью здесь нужно считать создание баз данных, столь
же простых в использовании, как электронные таблицы, которые часто применяются
в качестве рудиментарных систем баз данных.
Задачи установки СУБД или перехода к ее новой версии значительно более
громоздки, чем аналогичные задачи для других типов систем. Это неудивительно,
если учесть размеры СУБД, их сложность и разнообразие аппаратных конфигураций,
на которых они должны работать. Тем не менее, мы считаем нужным выдвинуть
исследовательскую программу, цель которой – создание интеллектуального
инструментария, помогающего системным менеджерам в установке и конфигурировании
систем. Современные операционные системы окружены целым слоем "помощников"
(wizard), которые обеспечивают их эффективную работу. Подобные "электронные
помощники" нужны и для снижения затрат ручного труда по обслуживанию
крупных приложений баз данных.
С этим же направлением связана и задача интеллектуальной поддержки высокой
производительности. Самый распространенный тип звонков в консультационные
службы фирм-поставщиков СУБД – это жалоба на то, что "такой-то и такой-то
запрос выполняется слишком медленно". Существуют теории подбора индексов
и оптимизации схем баз данных, которые могли бы помочь в решении подобных
проблем, и здесь нужны электронные "инструменты для физического конструирования
баз данных".
6. Выводы
Технологическая среда в Соединенных Штатах и во всем мире меняется очень
быстро, и вместе с этим расширяются наши представления о сферах применимости
баз данных. Растущие информационные потребности общества отчетливо выявляют
ограничения существующих технологий СУБД, и задача исследовательского сообщества
– самым энергичным образом устремить свои усилия на эти новые направления.
Спектр возможностей и потребностей здесь широк, как никогда, – от сугубо
теоретических изысканий в области создания новых моделей и алгоритмических
основ до реализации прототипов новаторских систем. В то же время, уровень
финансирования исследований в области баз данных существенно ниже, чем в других сравнимых
по значимости сферах.
Поэтому участники семинара рекомендуют вновь призвать к активности правительственные
агентства, занимающиеся продвижением работ в области баз данных, а также
те коммерческие структуры, которые извлекают выгоду из результатов этих
исследований.
В заключение мы хотим напомнить две важные рекомендации из отчета [Silberschatz
at al., 1990], не утратившие своего значения и сегодня.
- NSF вместе с другими организациями Федерального координационного совета (Federal Coordinating Council)
по науке, проектированию и технологиям, занимающимися финансированием фундаментальных
исследований, должны, при участии академических и промышленных кругов,
выработать стратегию, которая бы обеспечила уровень финансирования исследований
в области баз данных, соответствующий их значению для развития науки и
национального экономического благополучия.
- Промышленные фирмы США, существенно опирающиеся в своей деятельности
на технологии баз данных, должны оказать интенсивную поддержку в реализации
существующих программ и принять участие в создании новых программ по финансированию
университетских исследований в области баз данных.
Мы предвидим десятилетие впечатляющих достижений как в академических,
так и в индустриальных исследовательских кругах и надеемся на динамичную
и активную поддержку со стороны государственных и коммерческих структур.
Литература
[Gray, 1995] http://www.cs.washington.edu/homes/lazowska/cra/database.html.
[Silberschatz et al., 1990] Database systems: achievements and opportunities.
SIGMOD Record 19:4, pp. 6-22. См. также CACM 34:10, Oct. 1991, pp. 110-120.
1)Семинар организован
при поддержке Национального научного фонда (NSF – National Science Foundation)
в рамках программы развития баз данных и экспертных систем, грант IRI-9521026.
Мнения, выводы и рекомендации, содержащиеся в материалах семинара, принадлежат
его участникам и необязательно отражают позицию NSF.
2)Участники
семинара: Филипп Бернштейн (Phil Bernstein), Рон Брахман (Ron Brachman), Майкл Кери (Mike Carey), Рик Каттел (Rick Cattel), Гектор Гарсиа-Молина (Hector
Garcia-Molina), Лаура Хаас (Laura Haas), Дейв Майер (Dave Maier), Джефф Науфтон (Jeff Naughton), Майкл Шварц (Michael Schwartz),
Пат Селинджер (Pat Selinger), Ави Зильбершац (Avi Silberschatz), Майк Стоунбрейкер (Mike Stonebraker), Джефф Ульман (Jeff Ullman), Патрик Вальдурец (Patrick
Valduriez), Мойше Варди (Moshe Vardi), Дженифер Вайдом (Jennifer Widom), Гио Вайдерхолд (Gio Wiederhold), Марианна Винслетт (Marianne Winslett),
Мария Земанкова (Maria Zemankova). Некоторые комментарии в этом документе принадлежат Джиму
Грею.