>> 財通證券-計算機(jī)行業(yè)投資策略周報:大模型推理成本降低,AI應(yīng)用落地可期-240610
| 上傳日期: |
2024/6/10 |
大?。?/td>
| 2325KB |
| 格式: |
pdf 共14頁 |
來源: |
財通證券 |
| 評級: |
看好 |
作者: |
楊燁 |
| 行業(yè)名稱: |
計算機(jī) |
| 下載權(quán)限: |
此報告為加密報告,僅限高級會員查看 |
|
|
「API降價」為應(yīng)用落地帶來肥沃土壤。大模型的智能水平隨著參數(shù)量和訓(xùn)練數(shù)據(jù)量的顯著增加而提升,但高昂的推理成本限制了其應(yīng)用落地。自5月以來,幻方DeepSeek-V2引入創(chuàng)新性的MLA架構(gòu),將模型輸入和輸出價格分別降至1元和2元每百萬token,受到廣泛關(guān)注。隨后,字節(jié)豆包在國內(nèi)大模型市場率先降價,阿里、百度等云廠商以及智譜AI等初創(chuàng)公司也推出具有競爭力的低價模型。事實上,API價格下降是行業(yè)發(fā)展的必然趨勢。得益于(i)模型架構(gòu)的創(chuàng)新、(ii)推理引擎的推出、(iii)芯片性價比的提升以及(iv)參數(shù)量化的普及,大模型的推理成本已經(jīng)取得了顯著的優(yōu)化,API價格的下降將促進(jìn)應(yīng)用生態(tài)的繁榮,吸引更多開發(fā)者,推動AI原生應(yīng)用的落地。 「Attention機(jī)制」優(yōu)化計算復(fù)雜度的源頭。注意力機(jī)制(Attention)是大語言模型成功的關(guān)鍵技術(shù),Transformer模型利用自注意力機(jī)制在序列間建立長距離依賴,提高了seq2seq任務(wù)性能。然而,標(biāo)準(zhǔn)自注意力機(jī)制的時間空間復(fù)雜度隨序列長度N呈二次方增長,為此業(yè)界探索簡化MHA(如MQA、GQA、MLA)或替代Attention機(jī)制(如Mamba、RWKV、RetNet)的方案來降低計算和內(nèi)存需求。近期,以幻方DeepSeek提出的MLA和Mamba-2為代表的SSD架構(gòu)讓業(yè)界看到了對Attention機(jī)制進(jìn)一步優(yōu)化提效的巨大潛力。 「MoE架構(gòu)」高效擴(kuò)展模型參數(shù)量的秘訣?;旌蠈<夷P停∕oE)架構(gòu)通過集成多個專家模型和門控網(wǎng)絡(luò),實現(xiàn)模型參數(shù)的高效擴(kuò)展和計算量的降低。當(dāng)前研究聚焦于構(gòu)建更異構(gòu)的MoE,以自適應(yīng)地調(diào)整計算成本,提高模型效率?;梅紻eepSeek-V2和Snowflake的Arctic模型分別采用細(xì)粒度切割+共享專家獨立機(jī)制和Dense-MoE混合架構(gòu),顯著提升了參數(shù)效率。隨著業(yè)界對MoE研究的深入,更加異構(gòu)的MoE架構(gòu)將逐漸被主流模型廠商采用,并融入其旗艦?zāi)P椭?。這將帶來模型的推理成本更加動態(tài)分配,與之對應(yīng)的單位成本模型能力也將變得更加強大。 投資建議:見正文 風(fēng)險提示:AI技術(shù)迭代不及預(yù)期的風(fēng)險,商業(yè)化落地不及預(yù)期的風(fēng)險,政策支持不及預(yù)期風(fēng)險,全球宏觀經(jīng)濟(jì)風(fēng)險。
|
|