Интерконнект: 10 Гбит/с и даже больше

Андрей Шуклин

2006-03-21

Огромное количество проблем, которые существуют в различных областях науки и промышленности, для своего решения требуют значительных вычислительных ресурсов. Будь то прогноз погоды, сложные инженерные расчеты, обработка геофизических данных, анализ больших массивов информации - решение всех этих задач на одном процессоре, даже самом мощном, заняло бы слишком большое время, а в некоторых случаях всей человеческой жизни не хватило бы, чтобы получить ответ на поставленные вопросы. Поэтому уже многие годы все высокопроизводительные вычислительные системы являются многопроцессорными.

Огромное количество проблем, которые существуют в различных областях науки и промышленности, для своего решения требуют значительных вычислительных ресурсов. Будь то прогноз погоды, сложные инженерные расчеты, обработка геофизических данных, анализ больших массивов информации - решение всех этих задач на одном процессоре, даже самом мощном, заняло бы слишком большое время, а в некоторых случаях всей человеческой жизни не хватило бы, чтобы получить ответ на поставленные вопросы. Поэтому уже многие годы все высокопроизводительные вычислительные системы являются многопроцессорными.

В свою очередь, многопроцессорные системы тоже бывают различными - есть векторные системы, когда каждый процессор может параллельно выполнять много операций по обработке массивов данных, есть системы с общей памятью, когда все процессоры имеют возможность доступа к одним и тем же данным, и есть кластерные системы, когда множество вычислительных узлов (то есть отдельных компьютеров) связаны между собой высокоскоростной сетью, которая в обиходе носит имя "интерконнект" и с помощью которой осуществляется обмен информацией. Какая именно система нужна для решения той или иной задачи, зависит от множества условий - от того, как устроена модель решения, от используемого программного обеспечения, от условий, в которых эта система должна быть размещена. В последнее время для решения все большего количества задач используются кластерные системы - они во многих случаях позволяют достичь большего экономического эффекта по сравнению с другими системами, более просты в ремонте и эксплуатации, легче расширяемы, в случае когда потребителю такой системы требуется увеличить вычислительную мощность. В этой статье речь пойдет о различных интерконнектах - именно интерконнект во многом определяет эффективность работы кластера.

Сети

Сегодня существует большое количество сетей, позволяющих достичь необходимые характеристики для кластерных инсталляций, и компании, разрабатывающие интерконнект, периодически обновляют свои продукты, правда, с различной интенсивностью. Так или иначе, ежегодно проходят две суперкомпьютерных конференции: одна из них проводится летом в Гейдельберге, а вторая - осенью в США. И как правило, все события в мире высокопроизводительных вычислений приурочены к одной из двух конференций, чтобы анонс был одинаково "громким" для всех участников сообщества. Таким образом, суперкомпьютеры, равно как и новинки интерконнекта, считают не только по осени, но и в начале лета.

Gigabit Ethernet

Эта технология оказывается самой доступной для организации сети передачи данных и подходит для инсталляций, которые не требуют интенсивного обмена данных между узлами кластера (как правило, на установках, использующих Gigabit Ethernet (GbE), части задачи независимо рассчитываются на различных узлах, а уже потом собираются в единый результат). Помимо невысокой пропускной способности, Gigabit Ethernet обладает довольно большими задержками - порядка 50 мкс при работе библиотек MPI. Основным преимуществом этой технологии является простота ее внедрения, потому что порты GbE сегодня есть на любой плате, а коммутатор стоит относительно недорого.

Новая версия этой же технологии носит вполне объяснимое название: 10 Gigabit Ethernet. Он в 10 раз быстрее, время задержки значительно меньше, чем у GbE, что позволяет считать данную технологию одной из самых перспективных на рынке, к тому же наследует повсеместно распространенный Gigabit Ethernet. Однако цена оказывается высокой, хотя и наблюдаются устойчивые тенденции к ее снижению, в частности с начала текущего года цена в пересчете на один порт упала с $10 000 до $2500 летом и уже приближается к отметке $1000.

Myrinet

Этот интерконнект тоже весьма часто используется. Основные его преимущества - невысокая цена, накопленный опыт использования (Myrinet - зрелая технология) и наличие различного ПО и отдельных библиотек, работающих на кластерах, использующих Myrinet. В отношении интерконнекта от компании Myricom, все отраслевое сообщество уже несколько лет находилось в ожидании нового продукта, поддерживающего пропускную способность до 10 Гбит/с. Наконец, на конференции в Гейдельберге в 2005 году это свершилось, и сегодня массовый рынок, - конечно, если рынок интерконнекта вообще можно назвать массовым - получил доступ к продуктам с пропускной способностью 10 Гбит/с. Что интересно, новые адаптеры производства Myricom, Myri-10G, обладают совместимостью с коммутаторами 10 Gigabit Ethernet. Это позволяет подключать их к более распространенным, но пока относительно дорогим коммутаторам 10 Gigabit Ethernet. На момент публикации статьи 10-Гбит коммутаторы от Myricom еще не были анонсированы, но появятся они уже очень скоро - скорее всего, на осенней конференции, которая пройдет в Сиэтле.

Основные преимущества Myrinet — невысокая цена, опыт использования и наличие различного ПО и отдельных библиотек, работающих на кластерах

До этого Myrinet хотя и оставался одной из самых освоенных технологий для кластерных сетей, но позволял достигать пропускную способность лишь в 2 Гбит/с (либо 4 Гбит/с, при использовании двух каналов). При этом задержка на MPI-транзакциях составляет порядка 3 мкс. Теперь у этой технологии есть неплохой шанс, тем более что стоимость порта колеблется в районе $1000, как и для других высокопроизводительных решений.

Впрочем, для России Myrinet вряд ли можно назвать оптимальным решением, хотя бы в виду экспортных ограничений - при заказе этого интерконнекта всегда надо указывать конечного потребителя.

SCI

Технология SCI также достаточно интересна, хотя и весьма ограничена. Основной производитель интерконнекта SCI, компания Dolphin вошла в строй лидирующих поставщиков интерконнекта, объявив в марте этого года о выпуске решения, работающего со скоростью до 10 Гбит/с. Новое решение поддерживает шину PCI Express. Дело в том, что до летней конференции, на которой был сделан последний анонс, все продукты от Dolphin работали на шине PCI 64 МГц и даже не поддерживали PCI-X. К счастью, компания перепрыгнула через PCI-X и перешла сразу к PCI Express, как к более прогрессивной технологии.

Новое решение от Dolphin, согласно заявлениям производителя, отличается малым временем задержки (порядка 1 мкс). Это можно считать преимуществом SCI, при том, что ранее адаптеры SCI давали задержку порядка 4 мкс на транзакциях MPI.

Следует отметить, что продукция компании Dolphin не распространена в России, и даже несмотря на объявление нового поколения высокоскоростных и доступных по цене решений SCI, она вряд ли станет популярнее.

InfiniBand

Это, пожалуй, самый интересный интерконнект на сегодня. Дело в том, что технология InfiniBand универсальна, она не является частным стандартом ни одной из компаний и поддерживается многими производителями. В частности, драйвер InfiniBand уже включен в саму ОС Linux, которая, как правило, используется для создания кластеров. И хотя, быть может, пока поддержка InfiniBand не находится на уровне, достаточном для применения в серьезных установках, но уже в конце этого года - начале следующего ситуация принципиально изменится, как заверяют представители сообщества.

Примечательно, что за последний год появилось множество адаптеров InfiniBand, ориентированных на различные сегменты рынка. В частности, были выпущены адаптеры, которые используют оперативную память сервера и не имеют выделенной памяти. Стали доступны адаптеры с одним портом, они используют не два потока, а один - такие решения подходят для небольших кластерных инсталляций, где два порта принципиально не нужны. При этом разница в цене между продуктами верхнего и нижнего диапазонов, составляет порядка $200-300, что в пересчете на один узел весьма ощутимо.

Компания Mellanox анонсировала интегрированный чип для материнских плат, выполняющий роль контроллера InfiniBand, что повысит стоимость последней всего на $70. То есть в ближайшем будущем порты InfiniBand будут доступны уже встроенными в материнской платы, равно как и Gigabit Ethernet. Можно взглянуть на эти технологии как на прямых конкурентов. Более того, такие платы уже есть в портфелях компаний Iwill и Arima, они были продемонстрированы на выставке Computex '2005. Осенью прошлого года Mellanox анонсировала возможность достижения скорости передачи данных 20 Гбит/с, а на последней суперкомпьютерной конференции - до 60 Гбит/с при использовании интерфейса InfiniBand 12x. При этом адаптеры InfiniBand демонстрируют задержку на библиотеках MPI порядка 4 мкс, работая на шине PCI Express, и порядка 6 мкс на шине PCI-X.

Интересно, что IBM разработала собственный адаптер InfiniBand для крупных UNIX-серверов. Этот продукт, конечно, вряд ли станет массовым, но сам факт использования технологии такой компанией, как IBM, говорит о росте ее популярности.

Обращая внимание на программное обеспечение, следует отметить рост интереса к InfiniBand, в частности практически все крупные инженерные пакеты уже могут работать в том числе и с этой технологией. Возможности такой работы демонстрировали осенью 2004 года в Питтсбурге на суперкомпьютерной конференции многие компании, продолжились демонстрации другими анонсами в течение всего года. Причем такие компании, как Oracle, объявили о поддержке InfiniBand, и эта возможность была наиболее полно реализована во втором релизе Oracle 10g, также называемой GRID-базе данных Oracle.

Высокопроизводительные расчеты также стали чаще проводиться на базе кластеров, соединенных InfiniBand. Например, если еще год назад были доступны математические библиотеки MPI, лишь разработанные в университете Огайо и в MCSE, сегодня появилось множество коммерческих версий, включая разработки Intel и HP.

В последних версиях продуктов InfiniBand латентность была снижена до 2,8 мкс, что в полтора раза меньше, чем у адаптеров предыдущего поколения. В сочетании с тем, что цена на InfiniBand порты находится в пределах $1000, интерконнект можно считать весьма перспективным. Кроме этого, Mellanox уже давно выпускает коммутаторы с 24 портами InfiniBand, чего не удалось почти ни одному производителю интерконнекта.

Quadrics

У технологии Quadrics есть два критических преимущества, которые пока почти никем не были перекрыты. Одно из них - очень небольшое время задержки, порядка 2 мкс. Второе состоит в том, что Quadrics имеет на своем счету самые крупные инсталляции. Это значит, что при сборке большой системы можно гарантировать работу только для Quadrics, так как подобные проекты уже были реализованы в мире. Поэтому Quadrics пока остается лидером по части масштабности проектов. Однако о самой технологии, которая используется в решениях Quadrics уже более трех лет, сказать ничего определенного нельзя. Дело в том, что изначально этот интерконнект разрабатывался для американских оборонных и других специальных учреждений, потому его очень сложно экспортировать, в частности, в Россию.

Вообще говоря, сейчас планируется большая инсталляция в Европе (во Франции), которая будет обладать вычислительной мощностью порядка 50 Тфлоп/с, в рамках которой будет использоваться Quadrics. Этот кластер предназначается для исследования в области ядерной физики.

PathScale

Компания PathScale, разработчик программных и аппаратных решений для Linux-кластеров, представила на последней суперкомпьютерной конференции рекордные результаты производительности своего нового интерконнекта PathScale InfiniPath, впервые продемонстрировав его для широкого круга специалистов. Адаптер PathScale InfiniPath - уникальное решение, обеспечивающее рекордно низкое время задержки интерконнекта (до 1,3 мкс на библиотеке MPI) при пропускной способности 10 Гбит/с. PathScale InfiniPath подключается напрямую к системной шине HyperTransport, реализуя преимущества архитектуры AMD DirectConnect. Для построения кластерных систем использует стандартную инфраструктуру InfiniBand.

Преимуществом PathScale InfiniPath является рост производительности с увеличением количества процессоров в вычислительном узле, что особенно актуально в связи с тенденцией перехода к использованию многоядерных процессоров. Так, при использовании на узле четырех процессоров PathScale InfiniPath позволяет достичь рекордной цифры в 8 млн сообщений в секунду. Наибольший выигрыш в производительности достигается при передаче сообщений маленького размера, что позволяет технологии PathScale InfiniPath обеспечивать во многих случаях лучшую, даже чем при использовании систем с общей памятью, производительность.

Развитие этого интерконнекта приведет к появлению плат с выведенной шиной HyperTransport, к примеру, такие продукты уже есть у Iwill. Вообще говоря, пока о признании нового решения говорить сложно, но в будущем, благодаря использованию эксклюзивной шины, они дадут серьезное преимущество кластерам на базе процессоров AMD Opteron.

Частные интерконнекты

В завершение хочется сказать, что некоторые вендоры используют частные технологии, предназначенные только для их установок. Так, достаточно интересным решением можно считать суперкомпьютер компании IBM BlueGene/L, использующий собственную уникальную технологию интерконнекта. Другая любопытная разработка - интерконнект BlackWidow в суперкомпьютере RedStorm производства компании Cray. Впрочем, останавливаться подробно на этих решениях вряд ли возможно, так как они закрытые. У многих других крупных компаний также есть собственные разработки интерконнекта, но и они используются лишь в частных инсталляциях.

Заключение

Как можно видеть, мир высокопроизводительных вычислений многообразен, и на создание лучшей сети передачи данных претендуют многие компании. Подводя итог, скажем, что сегодня в лидерах оказываются InfiniBand и 10 GbE. А что касается остальных игроков рынка, практически все они смогли преодолеть рубеж в 10 Гбит/с - хороший показатель для индустрии.

Мнение 1. Руслан Заединов, руководитель направления центров обработки данных компании КРОК

Как известно, кластерная архитектура подразумевает наличие вычислительного поля из однотипных узлов и сети передачи данных между ними. Технические параметры узлов и коммуникационной сети выбираются в зависимости от характера расчетной задачи, которую будет решать суперкомпьютер. В частности, в зависимости от требований по пропускной способности и задержкам выбирается один из доступных на сегодняшний день типов межузлового соединения: Gigabit Ethernet, Myrinet, Infiniband, Quadrics или SCI. Справедливости ради следует отметить, что выбор межузлового соединения диктуется не только техническими требованиями, но и особенностями программного обеспечения суперкомпьютера. Например, не все из названных соединений могут поддерживаться операционной системой, интересующей заказчика. Повсеместно поддерживаемым интерконнектом на сегодняшний день, естественно, является Gigabit Ethernet, а самым медленно развивающимся - SCI. Впрочем, в ограничениях, связанных с поддержкой со стороны используемой ОС, есть и свои плюсы. Существует ряд интерконнектов, которые крайне тесно интегрированы со специфическим аппаратным обеспечением вычислительных узлов и их операционными системами. Это NumaFlex компании SGI и High Performance Switch компании IBM. Проработанность этих технологий в тандеме со специфической архитектурой вычислительных узлов SGI и IBM позволяет достигать максимальных показателей производительности кластера в целом.

Что касается наших проектов, суперкомпьютер в НПО "Сатурн" включает в себя 64 узла - серверы IBM xSeries 336 на базе процессоров Intel Xeon с 64-разрядными расширениями. Кроме того, в состав кластера входят два мастер-узла IBM xSeries 455 на базе процессоров Itanium 2. В качестве межузлового соединения используется сеть Infiniband, построенная на коммутаторе TopSpin. Используется параллельная файловая система IBM GPFS, которая обеспечивает одновременный доступ к данным всем узлам кластера с высокой пропускной способностью.

Мнение 2. Олег Кукушкин, управляющий директор группы компаний ARBYTE

Как правило, клиенты принимают непосредственное участие в выборе интерконнекта, и основным критерием является соотношение цена/производительность, причем производительность комплексная, т.е. узлов и интерконнекта в целом, на конкретном целевом приложении, поэтому компания проводит предварительное тестирование комплекса в различных конфигурациях в нашем центре высокопроизводительных вычислений или в составе инфраструктуры клиента.

Нашим специальным решением для большинства инсталляций являются 1U-серверы Zeeger 1D и Alkazar. Эти устройства наиболее популярны, так как позволяют применять разные типы процессоров и могут быть использованы и просто как серверы и как узлы кластера с высокой плотностью (два ЦПУ на 1U), не имеют ограничений по типу применяемого интерконнекта. Zeeger 1D - новое поколение компактных серверов с усовершенствованной системой охлаждения. Для клиентов, которым для решения задач мощности отдельного сервера недостаточно, а род решаемой задачи не позволяет использовать кластер, мы рекомендуем 1U-решения SGI Altix 330.

Что касается кластеров, наиболее часто наша компания использует Gigabit Ethernet, нередко использование Infiniband. В качестве высокопроизводительного SMP-решения мы применяем оборудование Silicon Graphics с его фирменным интерконнектом NUMAlink. Архитектура NUMAlink, основанная на процессорах Intel Itanium 2 имеет самый быстрый в индустрии интерконнект (6,4 Гбит/с), устраняет ограничения по объему оперативной памяти.

Редакция благодарит технический отдел компании "Т-Платформы" за помощь в подготовке статьи.

Связь с редакцией