手机推荐排行榜,完美世界有声小说全集,斗破苍穹续集

>> 華泰證券-計算機行業(yè)專題研究：國產(chǎn)大模型“憑”什么降價？-240610

上傳日期：	2024/6/10	大?。?/td>	3208KB
格式：	pdf 共21頁	來源：	華泰證券
評級：	增持	作者：	謝春生
下載權(quán)限：	此報告為加密報告

國產(chǎn)模型廠商進入API“價格戰(zhàn)”，利好AI應(yīng)用開發(fā)
　　2024年5月6日，DeepSeek發(fā)布最新MoE模型DeepSeek-V2（32K上下文），刷新了模型API定價：輸入￥1元/M tokens、輸出￥2元/M tokens。緊接著，智譜、阿里、百度、騰訊、訊飛等廠商均宣布旗下模型API降價，部分降價幅度高達100%。我們深入拆解了各家API產(chǎn)品矩陣，發(fā)現(xiàn)降價的主要是輕量級模型，對于高并發(fā)B端用戶或影響不大。我們從定性邏輯和定量技術(shù)兩個維度分析降價的原因。我們認為，API降價將吸引更多的ISV開發(fā)AI相關(guān)應(yīng)用，有望提高Super App出現(xiàn)概率，建議關(guān)注算力和應(yīng)用相關(guān)公司，包括浪潮信息、金山辦公、福昕軟件、泛微網(wǎng)絡(luò)等。
　　降價以入門級輕量API為主，可以從技術(shù)優(yōu)化和生態(tài)搶占來解釋
　　降價廠商中，智譜、百度和訊飛主要降價產(chǎn)品為輕量版；阿里和騰訊則將旗下全部模型進行降價，降價幅度不等。字節(jié)為首次定價，價格較低?？梢钥闯?，降價幅度和范圍較大的主要是互聯(lián)網(wǎng)企業(yè)，其資源更加豐富。分析降價原因，一方面，DeepSeek V2證明了，確實可以通過注意力機制優(yōu)化，大大減少所需緩存的量，降低成本和提高效率。另一方面，即使沒有技術(shù)上的降價邏輯，通過降價手段吸引開發(fā)者，目前看仍是搶占生態(tài)的重要手段。
　　從技術(shù)層面降低模型推理成本，核心在于優(yōu)化KV cache
　　目前，大模型的長文本支持能力已成為趨勢。在推理長文本時，需要首先將文本預填充到GPU的HBM中，然后再解碼出token。其中預填充速度主要受GPU計算能力影響，解碼速度受HBM帶寬影響。當文本很長時，KV cache將占用HBM相當大的空間，導致用戶并發(fā)性下降，且解碼耗時更長。用戶并發(fā)性下降，還將帶來新的問題，即需要從HBM上“卸載”暫時不用的KVcache，再“加載”下一個用戶的KV cache，帶來新的耗時。因此，降低KV cache是優(yōu)化關(guān)鍵。
　　典型優(yōu)化方法：壓縮KV cache，或采用全局KV cache
　　我們研究了近期DeepSeek V2和微軟的YOCO典型的KV cache壓縮方法，代表兩種流派。DeepSeek V2引入多頭隱注意力（MLA）機制，不再緩存全部的KV，而是用隱向量來壓縮KV，與Transformer原始的多頭注意力相比，KV cache可以減少90%以上。微軟的YOCO則將Decoder架構(gòu)一切為二，下半部分負責用高效的注意力機制產(chǎn)生全局KV cache，上半部分則直接使用全局KV cache，不再需要額外計算，也大大降低了緩存量。
　　模型降價有望利好算力和應(yīng)用，建議關(guān)注相關(guān)產(chǎn)業(yè)鏈公司
　　我們認為，模型降價將吸引更多的開發(fā)者開發(fā)AI應(yīng)用，或進一步提振算力需求，提升Super App出現(xiàn)概率，建議關(guān)注：1）AI服務(wù)器：浪潮信息等；2）AI應(yīng)用：金山辦公、福昕軟件、泛微網(wǎng)絡(luò)等。其他產(chǎn)業(yè)鏈相關(guān)公司：1）海外算力產(chǎn)業(yè)鏈：光模塊（中際旭創(chuàng)、天孚通信、新易盛）、AI服務(wù)器（工業(yè)富聯(lián)）等；2）國產(chǎn)算力產(chǎn)業(yè)鏈：海光信息、寒武紀、神州數(shù)碼等。
　　風險提示：宏觀經(jīng)濟波動，技術(shù)進步不及預期。
　　

相關(guān)研報

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频