Суперкомпьютер Frontier для самого быстрого в мире хранилища

frontier

Компания Oak Ridge Leadership Computing Facility (OLCF)  объявила  первые подробности о подсистеме хранения данных Orion своего будущего суперкомпьютера Frontier exascale, который будет запущен в конце 2021 года. Frontier, первый в отрасли суперкомпьютер 1,5 ExaFLOPS в секунду, будет нуждаться в очень быстрой подсистеме хранения. Похоже, он настроен на получение одного с хранилищем объемом до 700 петабайт, пропускной способностью 75 ТБ/с и производительностью 15 миллиардов операций ввода-вывода в секунду (да, миллиарда).   

«Насколько нам известно, Orion будет самой крупной и быстрой однофайловой файловой системой пространства имен POSIX в мире», — сказал Сарп Орал, руководитель рабочей группы по вводу/выводу Frontier в OLCF. 

Суперкомпьютер Frontier на самом деле будет иметь две подсистемы хранения: внутрисистемный уровень хранения с высокой производительностью последовательного чтения более 75 ТБ/с и около 15 миллиардов операций ввода-вывода в секунду при чтении, а также файловую систему на уровне центра под названием Orion, которая предлагает колоссальные возможности, а именно 700ПБ емкости. 

Уровень глобальной файловой системы хранения Orion: емкость 700 Пбайт при 10 Тбайт/с

Поскольку Frontier опирается на архитектуру HPE Cray Shasta, ее глобальная система хранения файлов будет в значительной степени полагаться на многоуровневую архитектуру ClusterStor, в которой используются как твердотельные накопители PCIe 4.0/NVMe, так и традиционные жесткие диски.

Машины Cray ClusterStor используют процессоры AMD EPYC и могут автоматически согласовывать потоки данных в файловой системе с рабочей нагрузкой и при необходимости перемещать операции ввода-вывода между различными уровнями хранилища. Такое смещение заставляет приложения полагать, что они обращаются к высокопроизводительным массивам all-flash, тем самым увеличивая производительность.

Что касается программного обеспечения, то Orion будет использовать параллельную файловую систему Lustre с открытым исходным кодом (которая используется множеством суперкомпьютеров по всему миру, включая OLCF Titan и Jaguar), а также ZFS с диспетчером томов. 

В целом Орион по центру Frontier будет иметь три уровня:

  • Уровень метаданных, состоящий из 480 твердотельных накопителей NVMe емкостью 10 ПБ.
  • Уровень хранения NVMe, который использует 5400 твердотельных накопителей с емкостью 11,5 ПБ, пиковой скоростью чтения-записи 10 ТБ/с и более 2 миллионов операций ввода-вывода со случайным чтением в секунду (IOPS).
  • Уровень хранения на жестких дисках на основе 47700 жестких дисков PMR с емкостью 679 ПБ, максимальной скоростью чтения 5,5 ТБ/с, максимальной скоростью записи 4,6 ТБ/с и более 2 миллионов операций ввода-вывода в секунду при произвольном чтении.

OLCF сообщает, что Orion будет иметь 40 узлов сервера метаданных Lustre и 450 узлов службы хранилища объектов Lustre (OSS), в общей сложности 1350 OST по всей системе. Каждый узел OSS предоставит одно целевое устройство хранения объектов (OST) для производительности и два устройства OST для емкости. Кроме того, Orion будет использовать 160 узлов для маршрутизации, которые обеспечат пиковую скорость чтения-записи 3,2 ТБ/с, доступную для других ресурсов и платформ OLCF. 

«Orion расширяет границы возможного, технически благодаря своему экстремальному масштабу и гибридному характеру жесткого диска/NVMe», — сказал Дастин Леверман, руководитель группы высокопроизводительных вычислительных хранилищ и архивов OLCF. «Это сложная система, но наш опыт и лучшие практики помогут нам создать ресурс, который позволит нашим пользователям расширять границы науки с помощью Frontier».

Уровень хранения: до 75 ТБ/с при 15 миллиардах операций ввода-вывода в секунду при чтении

Уровень хранения Frontier состоит из твердотельных накопителей, установленных непосредственно в вычислительных узлах и подключенных к процессорам AMD EPYC с помощью интерфейса PCIe 4ого поколения. Эти накопители NVMe обеспечат совокупную производительность более 75 ТБ/с, скорость чтения более 35 ТБ/запись и более 15 миллиардов операций ввода-вывода в секунду при произвольном чтении. 

OLCF не раскрывает емкость уровня хранилища, но это всего лишь локальное хранилище, поэтому не ожидайте здесь десятков петабайт. 

Резюме

В целом уровень хранения обеспечивает Frontier колоссальную производительность 75 ТБ/с, тогда как центральный Orion предлагает емкость около 700 ПБ. Комбинация этой двухуровневой и многоуровневой подсистемы хранения обеспечивает именно то, что требуется машине 1,5 EFLOPS с потребляемой мощностью 20 МВт: непревзойденная производительность хранилища для передачи данных в центральные и графические процессоры и максимальная емкость для хранения больших наборов данных, для которых создан суперкомпьютер.

Lost Password

Please enter your username or email address. You will receive a link to create a new password via email.