管理书籍排行榜,辰东完美世界有声小说,完美世界txt下载

>> 浙商證券-大模型評(píng)測(cè)框架暨AI投研系列之三：如何對(duì)比GPT5和DeepSeek誰(shuí)更強(qiáng)？-250814

上傳日期：	2025/8/14	大小：	1053KB
格式：	pdf 共5頁(yè)	來(lái)源：	浙商證券
評(píng)級(jí)：	--	作者：	陳奧林,肖植桐
下載權(quán)限：	此報(bào)告為加密報(bào)告

核心觀(guān)點(diǎn)
　　8月8日GPT-5發(fā)布，部分觀(guān)點(diǎn)認(rèn)為其性能方面的提升有限，測(cè)試中僅小幅領(lǐng)先競(jìng)品，亮點(diǎn)在編程能力提升和價(jià)格競(jìng)爭(zhēng)力。而隨著海內(nèi)外大模型加速內(nèi)卷，技術(shù)提升和市場(chǎng)營(yíng)銷(xiāo)的邊界可能混淆。本文關(guān)注如何穿透指標(biāo)，客觀(guān)評(píng)價(jià)大模型的綜合技術(shù)能力。
　　國(guó)內(nèi)大模型開(kāi)源浪潮加速“內(nèi)卷”，性能優(yōu)勢(shì)吸人眼球
　　僅7月，就有Kimi K2、Qwen3-Coder、GLM-4.5等大模型重磅發(fā)布。以KimiK2-Instruct為例，官網(wǎng)表述模型性能大多優(yōu)于最新開(kāi)源和閉源模型：編程任務(wù)的評(píng)價(jià)框架為SWE-bench、LiveCodeBench、OJBench，數(shù)學(xué)/科學(xué)的評(píng)價(jià)框架為AIME2005、GPOA-Diamond，工具調(diào)用的評(píng)價(jià)框架為T(mén)au2、AceBench，但使用者對(duì)上述評(píng)價(jià)框架可能并不熟悉。
　　大模型評(píng)測(cè)兩大主流方式：表現(xiàn)超越基準(zhǔn)模型、用戶(hù)雙盲打分投票
　?、倩鶞?zhǔn)模型：哪怕AI出現(xiàn)之前，效果超越基準(zhǔn)模型也是學(xué)術(shù)論文的傳統(tǒng)目標(biāo)。以引用量較多的經(jīng)典框架為例：SWE-bench評(píng)測(cè)AI處理代碼Bug的能力，收集GitHub真實(shí)需求，測(cè)試AI修改的代碼能否解決問(wèn)題，采用Bug解決率衡量模型能力。LiveCodeBench的邏輯類(lèi)似，收集LeetCode等競(jìng)賽問(wèn)題檢驗(yàn)?zāi)Ｐ托阅?。AIME2025評(píng)測(cè)大模型在美國(guó)奧數(shù)題目表現(xiàn)，涵蓋代數(shù)/幾何/數(shù)論等領(lǐng)域。GPOADiamond關(guān)注生物/物理/化學(xué)高難度問(wèn)題，其中GP代表Google-Proof，即僅靠搜索引擎無(wú)法得到題目答案。最后，針對(duì)Agent智能體，AceBench等框架通過(guò)多智能體交互模擬真實(shí)世界的多輪對(duì)話(huà)，評(píng)估模型的復(fù)雜任務(wù)處理能力。
　　②用戶(hù)打分：LMArena為代表的大模型雙盲投票平臺(tái)，形成“大眾點(diǎn)評(píng)榜單”。用戶(hù)向AI提出問(wèn)題后，平臺(tái)會(huì)提供兩個(gè)大模型的回復(fù)結(jié)果，用戶(hù)根據(jù)主觀(guān)感受衡量模型表現(xiàn)并匿名投票，LMArena根據(jù)文本/代碼/視覺(jué)等任務(wù)類(lèi)型分類(lèi)排名，官網(wǎng)動(dòng)態(tài)實(shí)時(shí)更新大模型性能排行榜單。類(lèi)似的用戶(hù)口碑平臺(tái)還有智源FlagEval等。
　　評(píng)測(cè)框架的問(wèn)題和局限：排名榜單商業(yè)刷榜、靜態(tài)基準(zhǔn)模型刷題
　　一方面，排名榜單分?jǐn)?shù)商業(yè)價(jià)值高且規(guī)則固定，刷榜行為不可避免。論文Leaderboard Illusion曾懷疑科技公司可能利用評(píng)測(cè)平臺(tái)的規(guī)則漏洞，比如類(lèi)似不公平抽樣、對(duì)戰(zhàn)數(shù)據(jù)不公開(kāi)、用戶(hù)不專(zhuān)業(yè)等，幫助自身大模型提高排名。更有甚者，可能存在廠(chǎng)商提供針對(duì)該類(lèi)測(cè)評(píng)平臺(tái)的“定制版本”，誘導(dǎo)用戶(hù)更容易選擇它。
　　另一方面，傳統(tǒng)基準(zhǔn)模型根本上還是靜態(tài)題庫(kù)，同樣可以針對(duì)性調(diào)參和訓(xùn)練。如權(quán)威評(píng)測(cè)框架MMLU升級(jí)為MMLU-Pro的原因是原先的題目已沒(méi)有區(qū)分度。為克服該問(wèn)題，學(xué)界也有部分討論，如引入動(dòng)態(tài)互評(píng)機(jī)制的LLM-Crowdsourced，利用模型自主生成問(wèn)題、獨(dú)立作答、相互評(píng)分。HuggingFace、OpenCompass司南等評(píng)測(cè)體系超越單一題庫(kù)，整合多個(gè)傳統(tǒng)框架，更全面、多維度關(guān)注大模型能力。
　　如何應(yīng)對(duì)：錨定模型在真實(shí)任務(wù)的可靠性與泛化能力
　　關(guān)鍵是匹配，自建金融任務(wù)測(cè)試樣例，對(duì)比大模型垂直能力。大模型各有所長(zhǎng)，如閱讀理解重在推理、寫(xiě)代碼重在Agent工具，應(yīng)找到適合自己場(chǎng)景的大模型。我們利用不同模型測(cè)試本系列報(bào)告的研報(bào)總結(jié)、基金分析等任務(wù)，分析實(shí)戰(zhàn)能力。
　　未來(lái)評(píng)價(jià)智能體Agent比評(píng)價(jià)大模型本身更復(fù)雜，綜合4大維度驗(yàn)證性能。①輸出結(jié)果：任務(wù)完成度/輸出質(zhì)量/資源效率；②過(guò)程能力：規(guī)劃推理/記憶管理/工具調(diào)用/多智能體協(xié)作；③可靠性：生成穩(wěn)定性、異常響應(yīng)；④安全合規(guī)。
　　風(fēng)險(xiǎn)提示
　　AI模型和分析框架基于歷史信息整理。AI模型發(fā)生參數(shù)微調(diào)和數(shù)據(jù)變動(dòng)都可能導(dǎo)致性能和結(jié)果波動(dòng)。AI生成的數(shù)據(jù)可能存在錯(cuò)漏導(dǎo)致結(jié)論偏差，誤導(dǎo)投資決策。
　　

相關(guān)研報(bào)

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频