>> 國盛證券-電子行業(yè):“AI革命”算力篇-230408
| 上傳日期: |
2023/4/9 |
大小: |
2114KB |
| 格式: |
pdf 共29頁 |
來源: |
國盛證券 |
| 評級: |
-- |
作者: |
鄭震湘,佘凌星 |
| 行業(yè)名稱: |
電子 |
| 下載權(quán)限: |
無限制-登錄即可下載 |
|
|
GPU:算力的核心硬件,海外絕對壟斷。根據(jù)Verified Market Research數(shù)據(jù),2021年全球GPU市場規(guī)模為334.7億美金,預(yù)計到2030年將達到4473.7億美金,期間CAGR 33.3%。全球GPU市場目前被海外企業(yè)壟斷,根據(jù)Jon Peddie Research數(shù)據(jù),2022年四季度PCGPU中,英特爾/英偉達/AMD份額分別為71%/17%/12%;2022Q4獨立GPU中,英特爾/英偉達/AMD份額分別為6%/85%/9%,全球范圍內(nèi)GPU市場呈現(xiàn)出海外三巨頭壟斷局面。 LLM模型帶動算力需求。LLM模型的訓(xùn)練需要大量的計算資源和海量的文本數(shù)據(jù),因此需要使用分布式計算和大規(guī)模數(shù)據(jù)處理技術(shù)。例如,GPT-3模型擁有約1750億參考量,這使得GPT-3擁有其他較少參考量模型來說更高的準確性:僅需少量的樣本訓(xùn)練就能夠接近于BETR模型使用大量樣本訓(xùn)練后的效果。但同時,如果以英偉達旗艦級GPU產(chǎn)品A100對GPT-3進行訓(xùn)練,1024塊A100卡需要耗費超過1個月(大于30天),則我們可以按比例計算出,如果需要單日完成訓(xùn)練,需要的A100數(shù)量將超過30000塊。我們認為,LLM模型無論在性能還是在學(xué)習(xí)能力上,相較于其他模型都具備明顯優(yōu)勢,未來或?qū)⒊蔀樾袠I(yè)趨勢,同時大規(guī)模的訓(xùn)練模型與之對應(yīng)的便是龐大的算力需求。 服務(wù)器:GPU市場的重要增長動力。服務(wù)器中GPU由于其具有最強的計算能力同時具備深度學(xué)習(xí)等能力,目前成為服務(wù)器中加速芯片的首選。AI服務(wù)器中GPU單品類硬件價值量占比較高:我們以Nvidia DGXA100為例,通過計算我們發(fā)現(xiàn)其GPU價值量占比約為48.24%。根據(jù)TrendForce數(shù)據(jù),截止2022年全球搭載GPGPU的AI服務(wù)器出貨量占整體服務(wù)器比重約1%,同時TrendForce預(yù)測2023年伴隨AI相關(guān)應(yīng)用加持,年出貨量增速達到8%,2022~2026年CAGR為10.8%。我們假設(shè)訓(xùn)練AI服務(wù)器和推理AI服務(wù)器的比例為1:4,計算得到2023/2026年訓(xùn)練服務(wù)器的數(shù)量大約為3.60/5.00萬臺。同時假設(shè)推理AI服務(wù)器和訓(xùn)練AI服務(wù)器使用的GPU數(shù)量分別為4張和8張,算出2023年和2026年全球AI服務(wù)器領(lǐng)域所需GPU數(shù)量約為86.4萬張和120萬張,以A100約1.20w美金的價格作為參考計算出2023年和2026年AI服務(wù)器所需GPU的價值分別為103.7億美元和144.0億美元。 硬件國產(chǎn)化迫在眉睫!2022年8月,美國政府通知英偉達,其需要獲得許可才能夠向中國和俄羅斯出口任何基于最新架構(gòu)的A100 GPU或DGX/HGX等系統(tǒng),同時該項規(guī)定也同時適用于最新發(fā)布的H100 GPU或者實現(xiàn)類似功能的產(chǎn)品。國內(nèi)公司百度旗下大模型ERNIE 3.0 Titan參數(shù)量達到2600億,高于GPT-3的1750億,其所需的同規(guī)格GPU數(shù)量將遠大于GPT-3,根據(jù)比例我們可以計算出在相同時間下(超過一個月)ERNIE 3.0 Titan所需A100數(shù)量約為1522塊。同時我們認為,未來AI倘若進入大模型時代,相關(guān)算力需求將快速增加,屆時對于國產(chǎn)高算力GPU需求將進一步提升,所以說GPU國產(chǎn)化進程迫在眉睫。 優(yōu)秀國產(chǎn)GPU公司不斷涌現(xiàn)。目前包括景嘉微、沐曦集成電路、壁仞科技、摩爾線程在內(nèi)一批優(yōu)秀的國產(chǎn)GPU公司不斷涌現(xiàn),通過對比我們發(fā)現(xiàn):在單精度浮點運算性能(FP32)算力中,國內(nèi)外廠商均處于TFLOPS量級,海外龍頭英偉達和AMD旗艦信號H100 SXM和MI250x分別實現(xiàn)FP32算力67 TFLOPS和47.9TFLOPS。國內(nèi)摩爾線程最高FP32算力產(chǎn)品MTTS3000,算力為15.2 TFLOPS;壁仞科技壁礪?100P產(chǎn)品最高實現(xiàn)240 TFLOPS的FP32算力;芯動科技“風(fēng)華1號”產(chǎn)品實現(xiàn)FP32算力5 TFLOPS。通過對比我們發(fā)現(xiàn)在大部分情況下國產(chǎn)GPGPU相較于海外旗艦款仍存在差距。 標的推薦:景嘉微、寒武紀、芯原股份、海光信息。 風(fēng)險提示:下游需求不及預(yù)期,國產(chǎn)化進程不及預(yù)期,測算誤差風(fēng)險。
|
|