В преддверие Big Data


Собственный материал Издания

Hits: 21393

В условиях стремительного роста сети Интернет и еще более стремительного увеличения объема данных, циркулирующих по этой сети, увеличивается значение устройств, которые обеспечивают надежное хранение информации. Поэтому мы решили опубликовать интервью с Александром Зейниковым, руководителем российского подразделения компании LSI, в котором обсуждаются актуальные вопросы хранения данных.

 

Вопрос. Одно из решений в области хранения данных, набирающее популярность в связи с темой Big Data – горизонтально масштабируемые, или кластерные NAS-системы (scale-out NAS). Если сравнить их с решениями по кластеризации файловых хранилищ с использованием устройств файловой виртуализации, то каковы преимущества scale-out NAS? Какие возможности доступны в scale-out NAS, но недоступны при файловой виртуализации?

 

 

Александр Зейников. NAS – это система хранения данных, как правило, предоставляющая доступ к хранимой информации на уровне файловой системы. NAS обычно работает по протоколам CIFS (общие папки Microsoft Windows), NFS (Linux, Unix), FTP или WebDAV (Internet). Проблемы таких систем обычно заключается в их невысокой производительности. NAS-сервера прочно заняли свою нишу в компаниях для обмена информацией между сотрудниками, для ведения общей документации, общих баз, общих проектов и.т.д. Количество устройств хранения (дисков, HDD) обычно без проблем можно наращивать, но в случае, если к NAS подключается большое число пользователей либо вместо пользовательской нагрузки, NAS нагружают серверными клиентами, значительно более чувствительными к ресурсам, узким местом может стать сама платформа NAS-сервера (RAID-контроллер, сеть, память, процессор, шина PCI). В этом случае некоторые производители пошли по принципу масштабирования NAS-серверов. Эти системы и называются Scale-out NAS. В таких системах обычно общая дисковая подсистема (JBOD), сеть хранения данных (FC, SAS, Infiniband, Ethernet) и несколько серверов, раздающих информацию в сеть общего пользования. Такие системы вполне способны повысить производительность подсистемы хранения по сравнению с традиционными NAS, но обладают значительными ограничениями по пределу масштабирования (предел количество «голов» NAS), стоимости (значительно выше, чем у традиционных NAS), сложности администрирования. Кстати, LSI планирует выпустить свое решение для Scale-out NAS в 2013 году. Это будет Active-Active отказоустойчивый кластер с общим хранилищем на SAS-JBODах.

 

Вопрос. В чем заключаются отличия объектных систем хранения (Object Storage) от систем хранения с адресацией по содержанию (Content Addressable Storage, CAS)? Что нового привносят современные технологии объектного хранения по сравнению с известными прежде технологиями контентной адресации?

 

Александр Зейников. Object Storage как и CAS имеют в значительной степени похожую архитектуру, но были разработаны для разных целей. Object Storage (Lustre, Panasas) ставят своей главной задачей обеспечение максимальной производительности, в то время как CAS-системы стараются максимизировать надежность хранения. Отсюда и применение таких систем. Object – в основном в HPC, а CAS – для online-архивов.

 

Вопрос. Каковы перспективы развития файловых систем для хранения и обработки больших объемов данных? На каких характеристиках и функциях файловых систем делают акцент вендоры, предлагающие альтернативы (или улучшения) HDFS?

 

Александр Зейников. HDFS обычно применяется совместно с Hadoop (Map-Reduce). Знакомые с проблематикой обработки больших данных знают, что основными этапами такой обработки являются собственно Map и Reduce. Но часто упускают из виду операцию Merge, которая идет в промежутке между Map и Reduce. В случае Merge, архитектура HDFS, основанная на применении медленных и больших по объему NL-SAS- или SATA- дисков не всегда оптимальна. Здесь нужно использовать гибридные массивы с применением как HDD (для объема), так и SSD (для кэширования), такие как Nytro MegaRAID или CacheCade. В таком случае, можно значительно повысить скорость обработки больших объемов данных. При обработке больших данных кроме HDFS можно также применять и Object Storage.  

 

Вопрос. Существуют ли, по-вашему мнению, пределы наращивания IOPS с помощью флэш-технологий, так сказать предел производительности? Что ее ограничивает и за счет чего можно поднять скорость чтения/записи на SSD?

 

Александр Зейников. Сегодня основными ограничивающими факторами производительности в подсистемах с SSD являются сами SSD (в частности, входящие в их состав, Flash-контроллеры, обеспечивающие заданную надежность устройств), а также контроллеры RAID (или HBA), способные пропустить через себя ограниченное число операций в секунду. На сегодняшний день производительность серверных устройств SSD составляет порядка 30-50 тысяч операций ввода-вывода в секунду (IOPS). Лучшие контроллеры (такие как PCI-e 3.0 LSI MegaRAID 9271) способны обслужить до 500 тысяч операций IOPS. Это позволяет строить массивы размером до 16 устройств SSD на контроллер без потери производительности.

Кроме традиционной связки контроллер-SSD сегодня на рынке представлены также PCI-SSD устройства, такие как Nytro WarpDrive. Это карты SSD, размещаемые непосредственно в PCI-слот сервера, позволяющие добиться высоких показателей IOPS без конфигурирования и тюнинга.

 

Вопрос. Что позволяет, по Вашему мнению, добиться экономической эффективности применения SSD, ведь их стоимость пока значительно выше HDD?

 

Александр Зейников. Оптимальным с точки зрения цена-производительность на сегодняшний день является решение организации гибридных массивов HDD/SSD. В таких массивах информация хранится на HDD, в то время как SSD используются в качестве быстрого и объемного кэша. Гибридный массив можно построить на основе Raid-контроллеров CacheCade для MegaRAID от LSI или MaxIQ от Adaptec. К контроллерам затем подключаются HDD и SSD, которые работают как единый массив. Кроме этого, можно воспользоваться встроенным ПО внешних систем хранения данных. Некоторые производители уже включили средства организации кэширования на SSD в состав ПО своих СХД. Если же внешняя СХД не поддерживает такой режим, то можно использовать дополнительные кэширующие карточки внутри сервера, подключенного к внешней СХД, например LSI Nytro XD.

 


Комментарии (0):

Добавить комментарий

 
Ваше имя:
Ваш комментарий:
Решите задачку (ответ напишите цифрами):
Четыре + Четыре =

 
 
 
Наверх