網路設計在大型語言模型(LLM)的訓練過程中扮演極為關鍵的角色,而阿里雲的工程師兼研究員翟迪南所發布名為「阿里巴巴HPN:用於大型語言模型訓練的數據中心網絡」的研究論文,揭示了阿里雲自行研發的高性能網路(HPN)如何解決傳統乙太網路技術中的瓶頸。
編譯/戴偉丞
網路設計在大型語言模型(LLM)的訓練過程中扮演極為關鍵的角色,而阿里雲的工程師兼研究員翟迪南所發布名為「阿里巴巴HPN:用於大型語言模型訓練的數據中心網絡」的研究論文,揭示了阿里雲自行研發的高性能網路(HPN)如何解決傳統乙太網路技術中的瓶頸。
翟團隊HPN的設計
傳統雲端運算只能提供速度低於10G的資料傳輸速度,同時更需要面臨LLM訓練過程中負載超過400G的週期性突發狀況。為此,翟迪南與其研究團隊開發了阿里雲HPN,使用雙平面架構以減少傳統數據中心常見的過載狀況,並且讓系統能夠精準地選擇數據傳輸流向。在翟迪南團隊所設計的HPN中,每個資料中心裝有1875個主機,每台主機又載有8個GPU,每個GPU又配有2個連接埠網卡。
逐步擺脫輝達技術
即便阿里雲放棄了輝達(Nvidia)高速GPU互連技術「NVLink」,但鑑於GPU間的傳輸仍需大量頻寬,因此在主機內部網路仍是以輝達專有的技術進行運作。同時阿里雲也採用51.2 Tb/sec 乙太網路單晶片ToR交換機,雖然能夠使晶片運作更為穩定,但是也伴隨著散熱冷卻的需求,而市面上卻沒有適合的散熱系統,因此阿里雲將自行研發符合需求的散熱裝置。
翟迪南團隊的HPN設計也並非完美無瑕,其中複雜的佈線結構可能導致在進行網路連接埠、ToR交換機、網卡的連接時產生混淆。但是即便如此,該HPN可能還是會比NVLink還要便宜,除了節省成本外,還能夠在美中科技戰中巧妙地避開輝達的技術。
資料來源:Tom’s Hardware、芯智訊
這篇文章 阿里雲自行研發HPN 企圖甩開輝達技術 最早出現於 TechNice科技島-掌握科技與行銷最新動態。