Андрей Шуклин
2006-03-21
Огромное количество проблем, которые существуют в различных областях науки и промышленности, для своего решения требуют значительных вычислительных ресурсов. Будь то прогноз погоды, сложные инженерные расчеты, обработка геофизических данных, анализ больших массивов информации - решение всех этих задач на одном процессоре, даже самом мощном, заняло бы слишком большое время, а в некоторых случаях всей человеческой жизни не хватило бы, чтобы получить ответ на поставленные вопросы. Поэтому уже многие годы все высокопроизводительные вычислительные системы являются многопроцессорными.
Огромное количество проблем, которые существуют в различных областях науки и промышленности, для своего решения требуют значительных вычислительных ресурсов. Будь то прогноз погоды, сложные инженерные расчеты, обработка геофизических данных, анализ больших массивов информации - решение всех этих задач на одном процессоре, даже самом мощном, заняло бы слишком большое время, а в некоторых случаях всей человеческой жизни не хватило бы, чтобы получить ответ на поставленные вопросы. Поэтому уже многие годы все высокопроизводительные вычислительные системы являются многопроцессорными.
В свою очередь, многопроцессорные системы тоже бывают различными - есть векторные системы, когда каждый процессор может параллельно выполнять много операций по обработке массивов данных, есть системы с общей памятью, когда все процессоры имеют возможность доступа к одним и тем же данным, и есть кластерные системы, когда множество вычислительных узлов (то есть отдельных компьютеров) связаны между собой высокоскоростной сетью, которая в обиходе носит имя "интерконнект" и с помощью которой осуществляется обмен информацией. Какая именно система нужна для решения той или иной задачи, зависит от множества условий - от того, как устроена модель решения, от используемого программного обеспечения, от условий, в которых эта система должна быть размещена. В последнее время для решения все большего количества задач используются кластерные системы - они во многих случаях позволяют достичь большего экономического эффекта по сравнению с другими системами, более просты в ремонте и эксплуатации, легче расширяемы, в случае когда потребителю такой системы требуется увеличить вычислительную мощность. В этой статье речь пойдет о различных интерконнектах - именно интерконнект во многом определяет эффективность работы кластера.
Новая версия этой же технологии носит вполне объяснимое название: 10 Gigabit Ethernet. Он в 10 раз быстрее, время задержки значительно меньше, чем у GbE, что позволяет считать данную технологию одной из самых перспективных на рынке, к тому же наследует повсеместно распространенный Gigabit Ethernet. Однако цена оказывается высокой, хотя и наблюдаются устойчивые тенденции к ее снижению, в частности с начала текущего года цена в пересчете на один порт упала с $10 000 до $2500 летом и уже приближается к отметке $1000.
Основные преимущества Myrinet — невысокая цена, опыт использования и наличие различного ПО и отдельных библиотек, работающих на кластерах
До этого Myrinet хотя и оставался одной из самых освоенных технологий для кластерных сетей, но позволял достигать пропускную способность лишь в 2 Гбит/с (либо 4 Гбит/с, при использовании двух каналов). При этом задержка на MPI-транзакциях составляет порядка 3 мкс. Теперь у этой технологии есть неплохой шанс, тем более что стоимость порта колеблется в районе $1000, как и для других высокопроизводительных решений.
Впрочем, для России Myrinet вряд ли можно назвать оптимальным решением, хотя бы в виду экспортных ограничений - при заказе этого интерконнекта всегда надо указывать конечного потребителя.
Новое решение от Dolphin, согласно заявлениям производителя, отличается малым временем задержки (порядка 1 мкс). Это можно считать преимуществом SCI, при том, что ранее адаптеры SCI давали задержку порядка 4 мкс на транзакциях MPI.
Следует отметить, что продукция компании Dolphin не распространена в России, и даже несмотря на объявление нового поколения высокоскоростных и доступных по цене решений SCI, она вряд ли станет популярнее.
Примечательно, что за последний год появилось множество адаптеров InfiniBand, ориентированных на различные сегменты рынка. В частности, были выпущены адаптеры, которые используют оперативную память сервера и не имеют выделенной памяти. Стали доступны адаптеры с одним портом, они используют не два потока, а один - такие решения подходят для небольших кластерных инсталляций, где два порта принципиально не нужны. При этом разница в цене между продуктами верхнего и нижнего диапазонов, составляет порядка $200-300, что в пересчете на один узел весьма ощутимо.
Компания Mellanox анонсировала интегрированный чип для материнских плат, выполняющий роль контроллера InfiniBand, что повысит стоимость последней всего на $70. То есть в ближайшем будущем порты InfiniBand будут доступны уже встроенными в материнской платы, равно как и Gigabit Ethernet. Можно взглянуть на эти технологии как на прямых конкурентов. Более того, такие платы уже есть в портфелях компаний Iwill и Arima, они были продемонстрированы на выставке Computex '2005. Осенью прошлого года Mellanox анонсировала возможность достижения скорости передачи данных 20 Гбит/с, а на последней суперкомпьютерной конференции - до 60 Гбит/с при использовании интерфейса InfiniBand 12x. При этом адаптеры InfiniBand демонстрируют задержку на библиотеках MPI порядка 4 мкс, работая на шине PCI Express, и порядка 6 мкс на шине PCI-X.
Интересно, что IBM разработала собственный адаптер InfiniBand для крупных UNIX-серверов. Этот продукт, конечно, вряд ли станет массовым, но сам факт использования технологии такой компанией, как IBM, говорит о росте ее популярности.
Обращая внимание на программное обеспечение, следует отметить рост интереса к InfiniBand, в частности практически все крупные инженерные пакеты уже могут работать в том числе и с этой технологией. Возможности такой работы демонстрировали осенью 2004 года в Питтсбурге на суперкомпьютерной конференции многие компании, продолжились демонстрации другими анонсами в течение всего года. Причем такие компании, как Oracle, объявили о поддержке InfiniBand, и эта возможность была наиболее полно реализована во втором релизе Oracle 10g, также называемой GRID-базе данных Oracle.
Высокопроизводительные расчеты также стали чаще проводиться на базе кластеров, соединенных InfiniBand. Например, если еще год назад были доступны математические библиотеки MPI, лишь разработанные в университете Огайо и в MCSE, сегодня появилось множество коммерческих версий, включая разработки Intel и HP.
В последних версиях продуктов InfiniBand латентность была снижена до 2,8 мкс, что в полтора раза меньше, чем у адаптеров предыдущего поколения. В сочетании с тем, что цена на InfiniBand порты находится в пределах $1000, интерконнект можно считать весьма перспективным. Кроме этого, Mellanox уже давно выпускает коммутаторы с 24 портами InfiniBand, чего не удалось почти ни одному производителю интерконнекта.
Вообще говоря, сейчас планируется большая инсталляция в Европе (во Франции), которая будет обладать вычислительной мощностью порядка 50 Тфлоп/с, в рамках которой будет использоваться Quadrics. Этот кластер предназначается для исследования в области ядерной физики.
Преимуществом PathScale InfiniPath является рост производительности с увеличением количества процессоров в вычислительном узле, что особенно актуально в связи с тенденцией перехода к использованию многоядерных процессоров. Так, при использовании на узле четырех процессоров PathScale InfiniPath позволяет достичь рекордной цифры в 8 млн сообщений в секунду. Наибольший выигрыш в производительности достигается при передаче сообщений маленького размера, что позволяет технологии PathScale InfiniPath обеспечивать во многих случаях лучшую, даже чем при использовании систем с общей памятью, производительность.
Развитие этого интерконнекта приведет к появлению плат с выведенной шиной HyperTransport, к примеру, такие продукты уже есть у Iwill. Вообще говоря, пока о признании нового решения говорить сложно, но в будущем, благодаря использованию эксклюзивной шины, они дадут серьезное преимущество кластерам на базе процессоров AMD Opteron.
![]() |
Как известно, кластерная архитектура подразумевает наличие вычислительного поля из однотипных узлов и сети передачи данных между ними. Технические параметры узлов и коммуникационной сети выбираются в зависимости от характера расчетной задачи, которую будет решать суперкомпьютер. В частности, в зависимости от требований по пропускной способности и задержкам выбирается один из доступных на сегодняшний день типов межузлового соединения: Gigabit Ethernet, Myrinet, Infiniband, Quadrics или SCI. Справедливости ради следует отметить, что выбор межузлового соединения диктуется не только техническими требованиями, но и особенностями программного обеспечения суперкомпьютера. Например, не все из названных соединений могут поддерживаться операционной системой, интересующей заказчика. Повсеместно поддерживаемым интерконнектом на сегодняшний день, естественно, является Gigabit Ethernet, а самым медленно развивающимся - SCI. Впрочем, в ограничениях, связанных с поддержкой со стороны используемой ОС, есть и свои плюсы. Существует ряд интерконнектов, которые крайне тесно интегрированы со специфическим аппаратным обеспечением вычислительных узлов и их операционными системами. Это NumaFlex компании SGI и High Performance Switch компании IBM. Проработанность этих технологий в тандеме со специфической архитектурой вычислительных узлов SGI и IBM позволяет достигать максимальных показателей производительности кластера в целом.
Что касается наших проектов, суперкомпьютер в НПО "Сатурн" включает в себя 64 узла - серверы IBM xSeries 336 на базе процессоров Intel Xeon с 64-разрядными расширениями. Кроме того, в состав кластера входят два мастер-узла IBM xSeries 455 на базе процессоров Itanium 2. В качестве межузлового соединения используется сеть Infiniband, построенная на коммутаторе TopSpin. Используется параллельная файловая система IBM GPFS, которая обеспечивает одновременный доступ к данным всем узлам кластера с высокой пропускной способностью.
![]() |
Как правило, клиенты принимают непосредственное участие в выборе интерконнекта, и основным критерием является соотношение цена/производительность, причем производительность комплексная, т.е. узлов и интерконнекта в целом, на конкретном целевом приложении, поэтому компания проводит предварительное тестирование комплекса в различных конфигурациях в нашем центре высокопроизводительных вычислений или в составе инфраструктуры клиента.
Нашим специальным решением для большинства инсталляций являются 1U-серверы Zeeger 1D и Alkazar. Эти устройства наиболее популярны, так как позволяют применять разные типы процессоров и могут быть использованы и просто как серверы и как узлы кластера с высокой плотностью (два ЦПУ на 1U), не имеют ограничений по типу применяемого интерконнекта. Zeeger 1D - новое поколение компактных серверов с усовершенствованной системой охлаждения. Для клиентов, которым для решения задач мощности отдельного сервера недостаточно, а род решаемой задачи не позволяет использовать кластер, мы рекомендуем 1U-решения SGI Altix 330.
Что касается кластеров, наиболее часто наша компания использует Gigabit Ethernet, нередко использование Infiniband. В качестве высокопроизводительного SMP-решения мы применяем оборудование Silicon Graphics с его фирменным интерконнектом NUMAlink. Архитектура NUMAlink, основанная на процессорах Intel Itanium 2 имеет самый быстрый в индустрии интерконнект (6,4 Гбит/с), устраняет ограничения по объему оперативной памяти.
Редакция благодарит технический отдел компании "Т-Платформы" за помощь в подготовке статьи.