>> 浙商證券-大模型評(píng)測(cè)框架暨AI投研系列之三:如何對(duì)比GPT5和DeepSeek誰(shuí)更強(qiáng)?-250814
| 上傳日期: |
2025/8/14 |
大小: |
1053KB |
| 格式: |
pdf 共5頁(yè) |
來(lái)源: |
浙商證券 |
| 評(píng)級(jí): |
-- |
作者: |
陳奧林,肖植桐 |
| 下載權(quán)限: |
此報(bào)告為加密報(bào)告 |
|
|
核心觀(guān)點(diǎn) 8月8日GPT-5發(fā)布,部分觀(guān)點(diǎn)認(rèn)為其性能方面的提升有限,測(cè)試中僅小幅領(lǐng)先競(jìng)品,亮點(diǎn)在編程能力提升和價(jià)格競(jìng)爭(zhēng)力。而隨著海內(nèi)外大模型加速內(nèi)卷,技術(shù)提升和市場(chǎng)營(yíng)銷(xiāo)的邊界可能混淆。本文關(guān)注如何穿透指標(biāo),客觀(guān)評(píng)價(jià)大模型的綜合技術(shù)能力。 國(guó)內(nèi)大模型開(kāi)源浪潮加速“內(nèi)卷”,性能優(yōu)勢(shì)吸人眼球 僅7月,就有Kimi K2、Qwen3-Coder、GLM-4.5等大模型重磅發(fā)布。以KimiK2-Instruct為例,官網(wǎng)表述模型性能大多優(yōu)于最新開(kāi)源和閉源模型:編程任務(wù)的評(píng)價(jià)框架為SWE-bench、LiveCodeBench、OJBench,數(shù)學(xué)/科學(xué)的評(píng)價(jià)框架為AIME2005、GPOA-Diamond,工具調(diào)用的評(píng)價(jià)框架為T(mén)au2、AceBench,但使用者對(duì)上述評(píng)價(jià)框架可能并不熟悉。 大模型評(píng)測(cè)兩大主流方式:表現(xiàn)超越基準(zhǔn)模型、用戶(hù)雙盲打分投票 ?、倩鶞?zhǔn)模型:哪怕AI出現(xiàn)之前,效果超越基準(zhǔn)模型也是學(xué)術(shù)論文的傳統(tǒng)目標(biāo)。以引用量較多的經(jīng)典框架為例:SWE-bench評(píng)測(cè)AI處理代碼Bug的能力,收集GitHub真實(shí)需求,測(cè)試AI修改的代碼能否解決問(wèn)題,采用Bug解決率衡量模型能力。LiveCodeBench的邏輯類(lèi)似,收集LeetCode等競(jìng)賽問(wèn)題檢驗(yàn)?zāi)P托阅?。AIME2025評(píng)測(cè)大模型在美國(guó)奧數(shù)題目表現(xiàn),涵蓋代數(shù)/幾何/數(shù)論等領(lǐng)域。GPOADiamond關(guān)注生物/物理/化學(xué)高難度問(wèn)題,其中GP代表Google-Proof,即僅靠搜索引擎無(wú)法得到題目答案。最后,針對(duì)Agent智能體,AceBench等框架通過(guò)多智能體交互模擬真實(shí)世界的多輪對(duì)話(huà),評(píng)估模型的復(fù)雜任務(wù)處理能力。 ②用戶(hù)打分:LMArena為代表的大模型雙盲投票平臺(tái),形成“大眾點(diǎn)評(píng)榜單”。用戶(hù)向AI提出問(wèn)題后,平臺(tái)會(huì)提供兩個(gè)大模型的回復(fù)結(jié)果,用戶(hù)根據(jù)主觀(guān)感受衡量模型表現(xiàn)并匿名投票,LMArena根據(jù)文本/代碼/視覺(jué)等任務(wù)類(lèi)型分類(lèi)排名,官網(wǎng)動(dòng)態(tài)實(shí)時(shí)更新大模型性能排行榜單。類(lèi)似的用戶(hù)口碑平臺(tái)還有智源FlagEval等。 評(píng)測(cè)框架的問(wèn)題和局限:排名榜單商業(yè)刷榜、靜態(tài)基準(zhǔn)模型刷題 一方面,排名榜單分?jǐn)?shù)商業(yè)價(jià)值高且規(guī)則固定,刷榜行為不可避免。論文Leaderboard Illusion曾懷疑科技公司可能利用評(píng)測(cè)平臺(tái)的規(guī)則漏洞,比如類(lèi)似不公平抽樣、對(duì)戰(zhàn)數(shù)據(jù)不公開(kāi)、用戶(hù)不專(zhuān)業(yè)等,幫助自身大模型提高排名。更有甚者,可能存在廠(chǎng)商提供針對(duì)該類(lèi)測(cè)評(píng)平臺(tái)的“定制版本”,誘導(dǎo)用戶(hù)更容易選擇它。 另一方面,傳統(tǒng)基準(zhǔn)模型根本上還是靜態(tài)題庫(kù),同樣可以針對(duì)性調(diào)參和訓(xùn)練。如權(quán)威評(píng)測(cè)框架MMLU升級(jí)為MMLU-Pro的原因是原先的題目已沒(méi)有區(qū)分度。為克服該問(wèn)題,學(xué)界也有部分討論,如引入動(dòng)態(tài)互評(píng)機(jī)制的LLM-Crowdsourced,利用模型自主生成問(wèn)題、獨(dú)立作答、相互評(píng)分。HuggingFace、OpenCompass司南等評(píng)測(cè)體系超越單一題庫(kù),整合多個(gè)傳統(tǒng)框架,更全面、多維度關(guān)注大模型能力。 如何應(yīng)對(duì):錨定模型在真實(shí)任務(wù)的可靠性與泛化能力 關(guān)鍵是匹配,自建金融任務(wù)測(cè)試樣例,對(duì)比大模型垂直能力。大模型各有所長(zhǎng),如閱讀理解重在推理、寫(xiě)代碼重在Agent工具,應(yīng)找到適合自己場(chǎng)景的大模型。我們利用不同模型測(cè)試本系列報(bào)告的研報(bào)總結(jié)、基金分析等任務(wù),分析實(shí)戰(zhàn)能力。 未來(lái)評(píng)價(jià)智能體Agent比評(píng)價(jià)大模型本身更復(fù)雜,綜合4大維度驗(yàn)證性能。①輸出結(jié)果:任務(wù)完成度/輸出質(zhì)量/資源效率;②過(guò)程能力:規(guī)劃推理/記憶管理/工具調(diào)用/多智能體協(xié)作;③可靠性:生成穩(wěn)定性、異常響應(yīng);④安全合規(guī)。 風(fēng)險(xiǎn)提示 AI模型和分析框架基于歷史信息整理。AI模型發(fā)生參數(shù)微調(diào)和數(shù)據(jù)變動(dòng)都可能導(dǎo)致性能和結(jié)果波動(dòng)。AI生成的數(shù)據(jù)可能存在錯(cuò)漏導(dǎo)致結(jié)論偏差,誤導(dǎo)投資決策。
|
|