2009 г.
Перспективы электронной науки
Сергей Кузнецов
Обзор
ноябрьского
2008 г.
номера
журнала
Computer (IEEE Computer Society, V. 41, No 11, November 2008).
Авторская редакция.
Также обзор опубликован в журнале "Открытые системы"
В этом году ноябрьский номер журнала Computer посвящен электронной науке (e-science). Приглашенным редактором тематической подборки номера является Владимир Гетов (Vladimir Getov, University of Westminster, London). Его вводная заметка называется « e-Science: дополнительные возможности новых открытий» («e-Science: The Added Value for Modern Discovery»).
Традиционно наука подразделялась на две принципиальные ветви, служившие источниками научных открытий на протяжении столетий – теоретическую и экспериментальную. Однако в последнее время появился новый подход, основанный на компьютерном моделировании, и он все чаще применяется в качестве одного из наиболее успешных методов для достижения новых экспериментальных научных результатов.
Основной причиной успеха электронной науки является быстрое развитие новых компьютерных технологий, приводящих к созданию сложных и мощных распределенных систем или вычислительных гридов, обеспечивающих средства высокопроизводительных вычислений, быстрый доступ к огромным наборам данных и эффективные коммуникации. Кроме того, составными частями этой вычислительной инфрастуктуры могут являться уникальные научные инструменты – сверхмощные электронные микроскопы, ускорители элементарных частиц, сложное медицинское оборудование и т.д.
Термин e-science, введенный в 1999 г. Джоном Тейлором (John Taylor), бывшим в то время генеральным директором научных советов Соединенного Королевства, объединяет эти новые революционные методы проведения коллективных экспериментальных научных исследований, включающие компьютерное моделирование и организацию виртуальных экспериментальных сред. Методы электронной науки поддерживаются инфраструктурными возможностями современных вычислительных гридов. В 2000 г. в Соединенном Королевстве была объявлена программа исследований в области электронной науки, оказывающая существенную поддержку этой научной революции.
Электронная наука создает возможности для получения исследовательских результатов на новом уровне качества, что демонстрируется различными инициативами по всему миру, включая программу киберинфраструктуры в Соединенных Штатах, проект Европейской исследовательской инфраструктуры, японский проект научного грида и т.д.
Первая основная статья тематической подборки называется «Научные шлюзы к TeraGrid и их влияние на науку» («TeraGrid Science Gateways and Their Impact on Science») и представлена Нэнси Вилкинс-Дайхр, Денисом Гэноном, Герхардом Климеком, Скоттом Остером и Суднахаром Памидигантамом (Nancy Wilkins-Diehr, University of California, San Diego, Dennis Gannon, Microsoft Research, Gerhard Klimeck, Purdue University, Scott Oster, Ohio State University, Sudhakar Pamidighantam, University of Illinois at Urbana-Champaign).
Проект TeraGrid финансируется Национальным научным фондом США, и в его рамках создается одна из крупнейших в мире распределенных киберинфраструктур для выполнения открытых научных исследований. Проект был начат в 2001 г. под названием Distributed Terascale Facility. На основе выделенной оптической сети с пропускной способностью 40 гигабит в секунду связывались компьютеры, системы визуализации и управления данными, расположенные в четырех узлах. Сегодня в состав TeraGrid входит 25 платформ, расположенных на 11 площадках, и обеспечивается доступ к суммарной вычислительной мощности более чем в один петафлоп и средствам хранения данных объемом в петабайты.
При создании TeraGrid преследуются три основных цели. Самой важной целью является поддержка тех научных направлений, прогресс в которых невозможен без использования средств TeraGrid. Вторая цель -- расширение числа пользователей из научного сообщества, применяющих в своих исследованиях методы электронной науки. Третья цель состоит в достижении совместимости между отдельными гридами и информационными службами для обеспечения возможности разработки интерфейсов программирования к TeraGrid.
Частью инициативы TeraGrid является программа TeraGrid Science Gateways. Для пояснения задач этой программы и иллюстрирования служб, развивающихся внутри TeraGrid, авторы статьи рассматривают четыре наиболее популярных существующих научных шлюза: для химиков (Computational Chemistry Grid, GridChem), метеорологов (Linked Environments for Atmospheric Discovery, LEAD), нанотехнологов (nanoHUB.org) и биоинформатиков (Cancer Biomedical Informatics Grid, caBIG).
Статья, написанная Сатоши Мацуока, Кацушиге Сага и Муцуми Аояги (Satoshi Matsuoka, Tokyo Institute of Technology, Kazushige Saga, National Institute of Informatics, Mutsumi Aoyagi, Kyushu University) называется «Поддержка связанного моделирования для электронной науки в гриде NAREGI» («Coupled-Simulation e-Science Support in the NAREGI Grid»).
В японском проекте NAREGI (National Research Grid Initiative), начатом в 2003 г., основной целью которого является разработка промежуточного программного обеспечения для национальной инфраструктуры грид, также осуществляется разработка нескольких приложений электронной науки (и поддерживающего их промежуточного программного обеспечения) для определения ключевых научных областей, в которых использование грид может принести максимальную пользу.
Эта часть проекта концентрируется на компонентах промежуточного программного обеспечения, ориентированных на конкретные прикладные области. Такие компоненты должны позволить использовать возможности грид в крупномасштабных приложениях нанотехнологии и химии, включая случаи, когда требуется связывать несколько приложений. Поддержка таких приложений в среде грид распространена не очень широко, и опыт NAREGI показывает принципиальную пригодность инфраструктуры грид для обеспечения среды, в которой их можно успешно выполнять.
Крейг Ли и Джордж Персиваль (Craig Lee, lee@aero.org, The Aerospace Corporation, George Percivall, gpercivall@opengeospatial.org, Open Geospatial Consortium) представили статью «Вычислительные возможности, основанные на стандартах, для распределенных геопространственных приложений» («Standards-Based Computing Capabilities for Distributed Geospatial Applications»).
Говорят, что от 80 до 90 процентов всей информации имеет геопространственное происхождение. Геопространственная информация широко применяется в разнообразных областях человеческой деятельности. К числу примеров относятся разведка нефти и газа, метеорология, авиация, наземные системы слежения за космическими аппаратами, планирование охраны окружающей среды, управление чрезвычайными ситуациями, государственное управление (электронное правительство), градостроительство и все разновидности электронной науки. Во всех этих видах деятельности требуется сбор существенных объемов данных, которые требуется хранить, обеспечивать к ним доступ и администрировать.
По мере увеличения «инфомассы» нашей планеты исследователям приходится иметь дело с постоянно расширяющимися репозиториями, архивами и библиотеками геопространственных данных, которые по своей природе распределяются между разными организациями и странами. Даже внутри одной организации такие коллекции данных могут храниться в разных местах, в разных форматах и с разными схемами. Кроме того, данные непрерывно поступают из постоянно возрастающего числа сенсоров.
Во многих геопространственных приложениях требуются не только данные из нескольких разнородных источников, но также и специальные обрабатывающие ресурсы, доступные в удаленных местах, например, высокопроизводительные компьютеры. В системах грид в распределенной среде удовлетворяется эта потребность в доступе к разнородным данным, цепочкам обрабатывающих ресурсов и высокопроизводительным вычислениями, а также и другие требования, такие как безопасность и управление цифровыми правами.
Громадное значение имеет возможность доступа к геопространственным данным в распределенной компьютерной среде, их анализа, интеграции и представления. Возрастающая связность нашего мира (на основе инструментов сбора данных, центров данных, суперкомпьютеров, ведомственных машин и персональных устройств) позволяет ожидать доступности разнообразной информации в любом месте. Имеются веские политические и бизнес-причины поддержки таких геопространственных приложений.
Для достижения такой простоты доступа и интероперабельности потребуются передовые методы, закрепленные в широко распространенных стандартах. В контексте электронной науки Совет по киберинфраструктуре Национального научного фонда США признает, что использование стандартов позволяет экономить при разработке и внедрении общих ресурсов, инструментальных средств, программного обеспечения и служб, способствующих использованию киберинфраструктуры различными нучно-техническими сообществами. Этот подход позволяет достичь максимальной интероперабельности и способствует распространению передового опыта. В действительности, подобные аспекты не уникальны для электронной науки и применимы во многих других областях.
Открытый геопространственный консорциум и Открытый грид-форум сотрудничают в разработке открытых стандартов, направленных на поддержку потребностей распределенных вычислений геопространственных приложений. В них также принимается во внимание неизбежность наличия разных форматов, схем и алгоритмов обработки.
OGC – это международный консорциум, в котором на основе процесса достижения консенсуса разрабатываются общедоступные стандарты интерфейсов доступа к геопространственной информации и службам. OGF – это аналогичная организация, специализирующаяся в разработке стандартов управления распределенными компьютерными ресурсами, такими как серверы, сети и системы хранения данных.
Интеграция стандартов OGC и OGF обеспечит необходимую инфраструктуру для разработки инструментальных средств, программного обеспечения и служб, которые будут работать совместно, и которые можно будет использовать несколькими сообществами. Эти стандарты будут поддерживать интероперабельность и способствовать использованию передового опыта. Стандарты основываются на базовых стандартах Internet и Web (HTTP, HTML, XML), что обеспечит доступность новых мощных возможностей существующим клиентам и серверам.
У статьи «Электронная наука, caGrid и трансляционные биохимические исследования» («e-Science, caGrid, and Translational Biomedical Research») 22 автора из пяти университетов и медицинских институтов. Первым в списке авторов числится Джоел Сальц (Joel Saltz, Emory University).
Исследователи используют достижения во многих областях биомедицинской технологии для того, чтобы лучше понимать причины заболеваний и лечить непосредственно их. В данной статье исследуется роль электронной науки в поддержке трансляционных биомедицинских исследований – процессах разработки и применения базисных научных знаний и методов для обеспечения новых способов диагностики, лечения и предотвращения заболеваний, а также применения в сообществе передового опыта.
Трансляционные исследовательские проекты различаются по своей природе. В них исследуются различные болезни, проверяется большое число разных гипотез и применяется множество экспериментальных методологий. Разнородные данные, сложные среды выполнения, повышенные требования к безопасности и надежности сильно затрудняют выполнение таких проектов. Требуется применение новых технологий электронной науки.
Авторы используют шаблоны образцов (pattern template) для выработки требований к платформам электронной науки со стороны различных групп трансляционных исследовательских проектов. Использование этого подхода стимулировано работами в области паттернов проектирования программного обеспечения. В данном контексте шаблоны образцов позволяют абстрагировать общие компоненты и характеристики различных категорий исследований. Хотя детали подхода, применяемого в конкретном проекте, могут отличаться от деталей подходов других проектов, основные принципы и процессы можно сгруппировать в несколько общих типов образцов. Шаблоны образцов используются для классификации и описания этих общих образцов, а также для фиксации проектных требований, передового опыта и ограничений в широких наборах приложений.
Шаблоны образцов, в которых отражаются общие требования, фиксируется передовой опыт и предлагаются стратегии, позволяют установить архитектурные характеристики платформ электронной науки, способствующие реализации сложных трансляционных исследовательских проектов, внедрению их результатов.
Анализ различных трансляционных проектов позволил авторам выявить несколько шаблонов образцов и на их основе разработать инструментальные средства, облегчающие реализацию таких проектов и внедрение их результатов. Разные компоненты одного трансляционного исследовательского проекта могут моделироваться несколькими шаблонами образцов.
Описываются три таких шаблона, и демонстрируется, как для их поддержки можно использовать два инструментальных средства электронной науки – caGrid и caIntegrator. caGrid – это сервис-ориентированная, модельно-управляемая программная инфраструктура грид, являющаяся неотъемлемым компонентом программы Biomedical Informatics Grid (caBIG). caGrid обеспечивает основную инфраструктуру для федеративных данных и аналитических ресурсов и приложений, размещенных в разных организациях внутри среды caBIG. Авторы спроектировали и разработали инфраструктуру в виде системы промежуточного программного обеспечения общего вида, которая способна поддерживать другие прикладные области.
caIntegrator – это новая трансляционная информационная платформа, обеспечивающая исследователям и биохимикам доступ к клиническим и экспериментальным данным, их анализ и интеграцию при выполнении различных клинических экспериментов и исследований.
Авторами статьи «Инфраструктура электронной науки для трансляции цифрового мультимедиа» («e-Science Infrastructure for Digital Media Broadcasting») являются Рон Перро, Терри Хармер и Рис Льюис (Ron Perrott, Terry Harmer, Belfast e-Science Center, Rhys Lewis, British Broadcasting Corporation).
Инициатива электронной науки способствует полному изменению характера исследовательской работы за счет создания сетевой исследовательской инфраструктуры. Эта инфраструктура позволяет исследователям совместно, координированным образом использовать технические ресурсы, которые обычно бывают распределены, поддерживаются разными организациями и относятся к разным научным дисциплинам. Такая инфраструктура упрощает доступ к основным инструментам исследований, таким как вычислительные ресурсы и архивы данных, и их использование.
В области широковещания приходится сталкиваться со многим проблемами, на решение которых направлены средства электронной науки. Кроме того, требования к качеству обслуживания (quality-of-service, QoS) и безопасности в широковещании намного выше, чем в области исследований.
Для решения этих проблем с British Broadcasting Corporation (BBC) выполняется проект по созданию прототипов инфраструктуры широковещания и приложений цифрового мультимедиа с использованием технологии электронной науки. В этой работе исследуются новые модели управления мультимедийным контентом и его доставки потребителям. Целью проекта является оценка уровня зрелости и надежности технологии электронной науки и, тем самым, ее пригодности для удовлетворения жестких требований области широковещания.
Вне тематической подборки опубликована статья «Парадокс безопасности в виртуальных средах» («The Paradox of Security in Virtual Environments»). Ее написал (Michael Price, Automatic Partners).
В виртуальной среде монитор виртуальных машин (virtual machine monitor, VMM) управляет несколькими виртуальными машинами (VM) на основе программной абстракции базовой аппаратуры. Эта архитектура с точки зрения безопасности обеспечивает определенные преимущества, но, в то же время, порождает уникальные проблемы. Как ни странно, такие факторы, как повышение вычислительной мощности компьютеров, их доступность и вездесущность, которые изначально привели к отказу от виртуализации, теперь способствуют ее возрождению.
Виртуализация появилась в конце 1960-х гг., когда приложения мультиплексировались на дорогостоящих мейнфреймах для разделения малочисленных и дорогих вычислительных ресурсов между несколькими процессами. Создание VM позволило нескольким приложениям сосуществовать на одной машине.
Тридцать лет спустя проблемы, для решения которых появились VM, разрешались за счет наличия современных операционных систем, возрастающей скорости процессоров и снижающейся стоимости аппаратных средств. Стало возможно просто и дешево инсталлировать новые приложения на выделенном сервере с собственным процессором, основной и внешней памятью.
Однако в дальнейшем эта тенденция привела к возникновению новых проблем. Появление недорогих аппаратных средств привело к распространению недоиспользуемых машин, занимающих значительное место и требующих управления. Устрашающей задачей стало отслеживание версий приложений, пачей и операционных систем, используемых на каждом сервере. Обеспечение безопасности этих машин стало огромной обязанностью организаций, поскольку им приходилось определять ответственность каждого сервера и навязывать политику безопасности во множестве исполняемых сред. Перенос этих приложений на VM, закрепление этих VM на небольшом числе физических машин и эффективное управление ими на основе VMM обеспечило одно из решений этой проблемы.
VMM – это тонкий программный уровень, традиционно базирующийся прямо на аппаратуре машины. В современных системах VMM может исполняться бок о бок с основной операционной системой компьютера. VMM обеспечивает абстракцию VM, которая схожа с базовой аппаратурой. Каждая абстракция VM – это клиент (guest), инкапсулирующий все состояние операционной системы, выполняемой внутри этой виртуальной машины. Клиентская операционная система взаимодействует с абстракцией виртуальной аппаратуры, управляемой VMM, как если бы это была реальная аппаратура. По сути дела, VMM – это операционная система операционных систем. Обычно VMM выполняется на наиболее привилегированном уровне, в то время как клиентские ОС работают в режиме пользователя.
В статье обсуждаются разновидности сред виртуальных машин, основные характеристики VMM. Отмечаются преимущества подхода VM, анализируются его недостатки, в том числе, по отношению к безопасности. Рассматриваются исследовательские работы и прототипные реализации, направленные на преодоление этих недостатков.