Сетевая инфраструктура суперкомпьютера


Алексей Полунин

Hits: 21413

Сегодня мощь вычислений в первую очередь зависит от скорости и надежности обмена данными. Неслучайно в последнее время наибольшую популярность приобрели суперкомпьютеры, построенные на основе кластерной архитектуры.

Этому есть вполне логичное объяснение – кластер позволяет достигать высокой производительности вычислений при относительно небольшой стоимости решения. Однако такой подход к созданию суперкомпьютеров имеет свою "изнанку". Во-первых, повышается требование к программному обеспечению суперкомпьютера, отвечающего за распределенные вычисления. Во-вторых, для нормального функционирования кластерное решение нуждается в мощных коммуникационных системах. Впрочем, для любого суперкомпьютера межсоединения были и остаются важнейшим элементом архитектуры. Однако кластерное построение суперкомпьютера обладает своими особенностями при создании межсоединений, которые будут рассмотрены в данной статье.

Требования к сетевой инфраструктуре

Сетевая инфраструктура суперкомпьютера, созданного на основе кластера, который располагается в конкретном ЦОДе или объединяет территориально-распределенные ресурсы, должна отвечать многим требованиям. Очевидно, что основной задачей такой коммуникационной среды является обеспечение прозрачной среды для взаимодействия всех вычислительных элементов, включенных в суперкомпьютер.

Это накладывает на сетевую инфраструктуру требование по минимизации задержек при передаче данных. Так же для обмена большими объемами информации необходимо обеспечить широкую полосу пропускания. Схема построения сетевой инфраструктуры суперкомпьютера должна исключать единую точку отказа и обеспечивать возможность дальнейшего масштабирования вычислительных ресурсов.

Наконец, сетевая инфраструктура должна быть энергетически эффективной. Данное требование не является реверансом в сторону экологов, разумное уменьшение энергопотребления коммуникационной средой в немалой степени способствует потенциальному увеличению производительности суперкомпьютера. Электроэнергия является дорогим ресурсом, который лучше перераспределять в пользу вычислительных элементов суперкомпьютера.

Сетевые топологии и технологии

Несмотря на очевидные преимущества, кластерное построение суперкомпьютеров имеет свои недостатки. В частности, усложняется эксплуатационное обслуживание сетевой инфраструктуры. Масштаб "кровеносной" системы современного суперкомпьютера впечатляет. Так суммарная длина кабельных соединений японского суперкомпьютера Earth Simulator превышает 2400 км. Надо отметить, что эта машина по современным меркам не обладает выдающимися характеристиками.

Столь же внушительными становятся задачи, связанные с поиском и устранением неисправностей в сетевой инфраструктуре. Помимо банальной ситуации, когда происходит полный отказ определенного участка межсоединения, не исключены варианты, при которых происходит снижение качественных показателей. Например, появление дополнительных задержек или уменьшение скорости передачи. При высокой плотности соединений сетевой инфраструктуры суперкомпьютера выявление причин таких "полуотказов" становится нетривиальным делом.

Поэтому перед разработчиками суперкомпьютеров становится вопрос выбора оптимальной топологии и технологии для построения сетевой инфраструктуры.

Эффективность любой сетевой топологии, применяемой как для построения корпоративной сети, так и для создания суперкомпьютера, измеряется, в частности, числом шагов между узлами (hops) для передачи данных между наиболее удаленными элементами в системе. В настоящее время получили распространение несколько типов топологий, используемых для создания коммуникационной системы суперкомпьютера.

Традиционная архитектура построения сетевой инфраструктуры включает в себя три уровня иерархии: доступа, агрегации и ядра. На практике далеко не всегда используются эти уровни. Если суперкомпьютер представляет собой решение, чьи вычислительные узлы размещены в одном аппаратном шкафу, то вполне достаточно уровня доступа. Однако при реализации масштабных проектов приходится использовать всю вертикаль иерархии и учитывать ее недостатки.

Масштабируемость традиционной топологии ограничена плотностью портов на коммутаторах. Так же не стоит забывать про разную длину пути между различными вычислительными узлами: очевидно, что при передаче данных через уровень ядра задержка будет выше, нежели при обмене на уровне доступа. Поэтому часто применяется топология, описанная еще в 1953 году Чарльзом Клосом и носящая его имя. Первоначально топология Клоса была ориентирована на использование при построении телефонных сетей. Но любая сеть есть сеть, и поэтому давние идеи отлично вписались в современные высокопроизводительные вычисления. Для суперкомпьютеров часто применяется топология Клоса, которая включает два уровнях коммутации, получивших название Leaf и Spine. Эта топология характеризуется лучшей масштабируемостью, высокой надежностью и более короткими путями передачи данных.

Развитием иерархической архитектуры стала топология "утолщенное дерево" (fat tree), разработанная в 1985 году Чарльзом Лейзерсоном из Массачусетского университета. В отличие от других древовидных топологий, в которых все связи между узлами одинаковые, в fat tree пропускная способность соединений увеличивается по мере приближения к корню дерева. На практике обычно используют удвоение пропускной способности на каждом уровне.

Так же стоит упомянуть об полносвязанной (mesh) архитектуре построения коммуникационной инфраструктуры. Этот вариант отличается великолепной надежностью, малой длиной пути передачи данных, но очень плохо масштабируется.

Каждая из рассмотренных топологий имеет свои достоинства и недостатки, поэтому выбор варианта архитектуры коммуникационной сети во многом зависит от размера кластера суперкомпьютера и перспектив его дальнейшего наращивания.

Немаловажную роль играет выбор технологии, используемой для передачи данных по сетевой инфраструктуре суперкомпьютера. В настоящее время находят свое применение несколько технологий, большая часть из которых является фирменным решением того или иного производителя оборудования.

Несколько лет назад весьма популярной была технология Myrinet, предложенная компанией Myricom. Решения, построенные с использованием данной технологии, обеспечивали скорость передачи до 1250 Мбит/с с задержкой не превышающей 10 мкс. Сегодня число суперкомпьютеров, включенных в список Top500 и использующих кластерную инфраструктуру по технологии Myrinet, не превышает 2%.

Так же к нишевым сетевым технологиям стоит отнести QsNet, коммуникационную среду от компании Quadrics, и SCI, созданную компанией Dolphin. Обе технологии отличаются низкими задержками (от 2 до 4 мкс) и высокими скоростями передачи (от 200 до 900 Мбит/с). Решения на основе этих технологий часто используются при создании уникальных суперкомпьютеров, основанных на крупных кластерах терафлопного уровня.

Большое распространение получила технология InfiniBand, описывающая высокоскоростную коммутируемую последовательную шину. Развитием данной технологии занимается ассоциация InfiniBand Trade Association. Реальная скорость передачи составляет порядка 800 Мбит/с и время задержки не превышает 7 мкс. На рынке наиболее распространены аппаратные решения InfiniBand таких производителей как Cisco, Qlogic, Mellanox, Voltaire.

Лидером среди технологий для построения сетевой инфраструктуры кластера, несомненно, является Ethernet. По lданным аналитиков, на долю этой технологии приходится более 52% HPC-рынка. Такая популярность Ethernet вполне объяснима и закономерна. По своей сути технология достаточно проста и надежна, ее история развития насчитывает не один десяток лет. Эта технология хорошо знакома сетевым специалистам, которые не испытывают особых проблем с развертыванием и поддержкой сетей на ее основе. Технология Ethernet способна работать в широком диапазоне скоростей передачи, ныне стандартизованы спецификации, позволяющие достигать 40 и 100 Гбит/с. В планах разработчиков достичь к 2015 году скорости в 1 Тбит/с. Особо стоит отметить хорошую совместимость Ethernet-оборудования различных производителей.

Для инфраструктуры ЦОД предлагается разновидность технологии Ethernet, лишенной недостатков с которыми вполне мирятся телекоммуникационные сети. Это отсутствие гарантированной доставки в обычном варианте Ethernet. Использование Ethernet для передачи данных критичных приложений потребовало создание нового стандарта, получившего название Converged Enhanced Ethernet (CEE) или Data Center Bridgind (DCB). Такое двойное наименование связано с разработкой этого стандарта различными организациями. Однако в основе обеих разработок лежат одни и те же принципы, что позволяет считать эти названия синонимами. Схожими характеристиками обладает технология Data Center Ethernet (DCE), разработанная компанией Cisco.

В стандарте CEE/DCB реализованы механизмы доставки пакетов без потерь на основе распределения трафика по различным уровням приоритета и выделения для каждого уровня заданной пропускной способности (создание виртуального канала). В период перегрузки на сети, потоки с низким уровнем приоритетов "притормаживаются", пропуская вперед трафик чувствительный к задержкам, к которому, например, относится трафик систем хранения данных.

Несомненным плюсом Ethernet для ЦОД является интеграция со стандартизованной технологией Fibre Channel over Ethernet (FCoE), которая обеспечила объединение в единую инфраструктуру сетей LAN и SAN без потери преимуществ, которыми они обладают.

На практике, внедрение связки стандартов CEE/FCoE упрощает сетевую инфраструктуру дата-центров, имеющих распределенные системы хранения. Протоколы CEE и FCoE позволяют объединить потоки традиционного Ethernet и Fibre Channel на интерфейсах 10 GbE и тем самым сократить число физических портов в коммутационном и серверном оборудованиях.

Сетевая инфраструктура суперкомпьютера

Поставщики Ethernet для ЦОД и их решения

Учитывая широкую популярность Ethernet, свои решения для организации сетевой инфраструктуры ЦОД на основе этой технологии предлагает немало компаний.

Компания Arista Networks предлагает две линейки коммутаторов, работающих с интерфейсами 10GE. Это Arista 7500 и Arista 7100, которые отличаются производительностью и числом поддерживаемых портов.

Широкий спектр оборудования для построения коммуникационной сети ЦОД предлагает компания Brocade, во многом этому способствовало недавнее приобретение известного производителя сетевого оборудования Foundry. В портфель компании входят решения FCX 624 и FCX 648, TurboIron24X Switch, серия маршрутизаторов NetIronMLX для уровня агрегации и ядра ЦОД, а так же недавно анонсированная линейка оборудования Virtual Cluster Switching (VCS). По заверениям производителя, VCS будет обладать высокой плотностью портов, задержкой менее 2 мкс и энергопотреблением ниже 7 Вт в расчете на порт.

В качестве сетевой основы высокопроизводительных вычислений Cisco рекомендует воспользоваться несколькими сериями своих коммутаторов. Это Catalyst 6500 и Catalyst 4900, а так же специализированные коммутаторы для ЦОД – Nexus 7018 Nexus 5020, Nexus 5010 и Nexus 2000.

Пришедшая в этом году на российский рынок компания Force10 Networks специализируется на разработке и производстве высокопроизводительных сетевых устройств. В частности, для ЦОД компания поставляет линейку коммутаторов серии "Е". По заверениям производителя, его оборудование имеет самую высокую плотность портов на HPC-рынке.

В стороне от технологии Ethernet не осталась и компания Myricom, которая предлагает решение Myrinet-10G. Это оборудование позволяет так же интегрировать сетевую инфраструктуру по технологиям Myrinet и Ethernet. Компания Blade Network Technologies предлагает модели RackSwitch G8100 и G8124, которые были специально созданы для построения кластерных систем ЦОД. Компания Voltaire поставляет на рынок две модели коммутаторов 10 GE. Это the Vantage 8500 и Vantage 6024.

Как видно из этого краткого обзора, на отечественном рынке представлен весьма широкий выбор оборудования для построения сетевой инфраструктуры суперкомпьютера на основе технологии Ethernet.


Комментарии (0):

Добавить комментарий

 
Ваше имя:
Ваш комментарий:
Решите задачку (ответ напишите цифрами):
Один + Один =

 
 
 
Наверх