>> 華泰證券-計算機行業(yè)專題研究:國產(chǎn)大模型“憑”什么降價?-240610
| 上傳日期: |
2024/6/10 |
大?。?/td>
| 3208KB |
| 格式: |
pdf 共21頁 |
來源: |
華泰證券 |
| 評級: |
增持 |
作者: |
謝春生 |
| 下載權(quán)限: |
此報告為加密報告 |
|
|
國產(chǎn)模型廠商進入API“價格戰(zhàn)”,利好AI應(yīng)用開發(fā) 2024年5月6日,DeepSeek發(fā)布最新MoE模型DeepSeek-V2(32K上下文),刷新了模型API定價:輸入¥1元/M tokens、輸出¥2元/M tokens。緊接著,智譜、阿里、百度、騰訊、訊飛等廠商均宣布旗下模型API降價,部分降價幅度高達100%。我們深入拆解了各家API產(chǎn)品矩陣,發(fā)現(xiàn)降價的主要是輕量級模型,對于高并發(fā)B端用戶或影響不大。我們從定性邏輯和定量技術(shù)兩個維度分析降價的原因。我們認為,API降價將吸引更多的ISV開發(fā)AI相關(guān)應(yīng)用,有望提高Super App出現(xiàn)概率,建議關(guān)注算力和應(yīng)用相關(guān)公司,包括浪潮信息、金山辦公、福昕軟件、泛微網(wǎng)絡(luò)等。 降價以入門級輕量API為主,可以從技術(shù)優(yōu)化和生態(tài)搶占來解釋 降價廠商中,智譜、百度和訊飛主要降價產(chǎn)品為輕量版;阿里和騰訊則將旗下全部模型進行降價,降價幅度不等。字節(jié)為首次定價,價格較低??梢钥闯?,降價幅度和范圍較大的主要是互聯(lián)網(wǎng)企業(yè),其資源更加豐富。分析降價原因,一方面,DeepSeek V2證明了,確實可以通過注意力機制優(yōu)化,大大減少所需緩存的量,降低成本和提高效率。另一方面,即使沒有技術(shù)上的降價邏輯,通過降價手段吸引開發(fā)者,目前看仍是搶占生態(tài)的重要手段。 從技術(shù)層面降低模型推理成本,核心在于優(yōu)化KV cache 目前,大模型的長文本支持能力已成為趨勢。在推理長文本時,需要首先將文本預填充到GPU的HBM中,然后再解碼出token。其中預填充速度主要受GPU計算能力影響,解碼速度受HBM帶寬影響。當文本很長時,KV cache將占用HBM相當大的空間,導致用戶并發(fā)性下降,且解碼耗時更長。用戶并發(fā)性下降,還將帶來新的問題,即需要從HBM上“卸載”暫時不用的KVcache,再“加載”下一個用戶的KV cache,帶來新的耗時。因此,降低KV cache是優(yōu)化關(guān)鍵。 典型優(yōu)化方法:壓縮KV cache,或采用全局KV cache 我們研究了近期DeepSeek V2和微軟的YOCO典型的KV cache壓縮方法,代表兩種流派。DeepSeek V2引入多頭隱注意力(MLA)機制,不再緩存全部的KV,而是用隱向量來壓縮KV,與Transformer原始的多頭注意力相比,KV cache可以減少90%以上。微軟的YOCO則將Decoder架構(gòu)一切為二,下半部分負責用高效的注意力機制產(chǎn)生全局KV cache,上半部分則直接使用全局KV cache,不再需要額外計算,也大大降低了緩存量。 模型降價有望利好算力和應(yīng)用,建議關(guān)注相關(guān)產(chǎn)業(yè)鏈公司 我們認為,模型降價將吸引更多的開發(fā)者開發(fā)AI應(yīng)用,或進一步提振算力需求,提升Super App出現(xiàn)概率,建議關(guān)注:1)AI服務(wù)器:浪潮信息等;2)AI應(yīng)用:金山辦公、福昕軟件、泛微網(wǎng)絡(luò)等。其他產(chǎn)業(yè)鏈相關(guān)公司:1)海外算力產(chǎn)業(yè)鏈:光模塊(中際旭創(chuàng)、天孚通信、新易盛)、AI服務(wù)器(工業(yè)富聯(lián))等;2)國產(chǎn)算力產(chǎn)業(yè)鏈:海光信息、寒武紀、神州數(shù)碼等。 風險提示:宏觀經(jīng)濟波動,技術(shù)進步不及預期。
|
|