>> 國泰君安-通信設備及服務行業(yè)DGXGH200算力網(wǎng)絡解析:AI超算渾然一體,光互聯(lián)地位顯著提升-230602
| 上傳日期: |
2023/6/2 |
大?。?/td>
| 1755KB |
| 格式: |
pdf 共11頁 |
來源: |
國泰君安 |
| 評級: |
增持 |
作者: |
王彥龍 |
| 行業(yè)名稱: |
通信 |
| 下載權(quán)限: |
此報告為加密報告 |
|
|
本報告導讀: 超算中心趨于一個整體,光互聯(lián)重要性快速提升;GH200性能提升原因在存儲,H100仍為主流場景應用;芯片光模塊比為1:9,比DGXH100組網(wǎng)更高。 摘要: 超算中心趨于一個整體,光互聯(lián)重要性快速提升。Nvidia CEO黃仁勛在大會上反復提到,未來的超算數(shù)據(jù)中心將表現(xiàn)的越來越像一個超級計算機,正如這次DGXGH200系統(tǒng)可以將256個GPU無縫連接,使其性能等于一個超大號的GPU。DGXGH200里面采用了242.4公里的光纖,證明在高速互聯(lián)領域,對光通信器件、模塊的應用將大大增加,光進銅退的趨勢在服務器外部的層級趨勢越來越明顯。 GH200性能提升原因在存儲,H100仍為主流場景應用。集群性能的提升主要有算力本身、網(wǎng)絡、存儲三大要素。市場擔憂DGXGH200對GPT3訓練性能提升2.2x,不利光模塊比例提升。但算力層面,單顆GH芯片和H100芯片F(xiàn)P8浮點算力沒有差異。存儲層面,DGXGH200內(nèi)部GPU和CPU的連接方式與DGXH100不同,其高速觸達的存儲容量可以大幅提升。我們觀察到對于同樣消耗數(shù)十TB內(nèi)存級別的操作,存儲瓶頸越明顯,DGXGH200系統(tǒng)表現(xiàn)就比DGXH100集群越優(yōu)越。因此,傳統(tǒng)GPT3、GPT4等主流大模型下,DGXH100集群(NVLink聯(lián)網(wǎng))與DGXGH200系統(tǒng)沒有明顯差異,因為存儲、網(wǎng)絡、算力都不是瓶頸。 芯片光模塊比為1:9,比H100 NVLink組網(wǎng)更高。這個數(shù)字比DGXH100使用NVLink組網(wǎng)下還要高2倍,主要的差距在于是DGXH100服務器內(nèi)到服務器外做了2:1的收斂,8個GPU僅用了4個NVSwitch芯片,無法做到1:1無阻塞的傳輸。而GH200是6個NVSwitch芯片對應8個GPU,可以實現(xiàn)胖樹架構(gòu),因此這個光模塊比例約比256個H100 NVLink組網(wǎng)方案多一倍。 投資建議:超算中心與傳統(tǒng)云中心相比,網(wǎng)絡相關投入比例將繼續(xù)增加,重點關注數(shù)通產(chǎn)業(yè)鏈和算力網(wǎng)絡鏈:1)數(shù)通光模塊核心標的:新易盛、天孚通信、光迅科技;2)稀缺的光芯片突破企業(yè):光庫科技,仕佳光子;3)有望突破的模塊企業(yè),受益標的:劍橋科技、博創(chuàng)科技、華工科技。 風險提示:DGXGH200推廣不及預期,AI訓練需求不及預期
|
|