美國橡樹嶺國家實驗室的 Frontier 是全球首臺真正意義上達到 ExaFLOP 級別(百億億次)的超級計算機,在高性能 Linpack(HPL)基準里,顯示其運算性能達到了 1.102 Exaflop/s,峰值性能達到了 1.685 Exaflop/s。打造一臺超級計算機并不是一件容易的事情,需要面對大量的硬件和軟件工作,而且有可能遇到意料之外的狀況,特別是 Frontier 這種采用新架構、性能有跨越式提升的超算。

據 TomsHardware 報道,目前 Frontier 的運轉情況并不好,幾乎沒有一天是完全正常運轉,平均故障間隔時間僅為數個小時。有關 Frontier 存在硬件問題的消息已經流傳有一段時間了,有消息稱可能與該系統采用的 HPE Slingshot 互連系統有關,也有傳聞指 Instinct MI250X 計算卡并不是那么可靠。
Frontier 基于 HPE Cray EX235a 架構,采用了 AMD 第三代 EPYC 處理器,頻率為 2GHz,整個系統共有 8730112 個內核。每個 HPE Cray EX 節點包括了一塊 AMD 的 64 核 EPYC"Trento"7A53 處理器(代號 Milan 的 Zen 3 架構衍生產品),512GB 的 DDR4 內存,以及四塊 Instinct MI250X 計算卡,通過四個 HPE Slingshot 200Gbps 以太網 NIC(25GB/s)連接,提供 800Gbps(100 GB/s)的節點帶寬。
Frontier 并不是唯一一款采用 HPE Cray EX 架構及 HPE Slingshot 互連系統的超級計算機,芬蘭名為 Lumi 的超算幾乎采用了相同的架構,不過規模要小一些,峰值性能為 0.55 ExaFLOPS,似乎并沒有出現類似的問題。
Frontier 原計劃在 2022 年上線,不過至今仍未正式部署,不知道 2023 年是否可以向研究人員開放。
原文地址:http://www.myzaker.com/article/6342c98cb15ec024f015212c