>> 申萬宏源-計算機行業(yè)GenAI系列報告之68:2026大模型幻覺能被抑制嗎?-260122
| 上傳日期: |
2026/1/22 |
大?。?/td>
| 2503KB |
| 格式: |
pdf 共23頁 |
來源: |
申萬宏源 |
| 評級: |
強于大市 |
作者: |
黃忠煌,洪依真,曹崢 |
| 行業(yè)名稱: |
計算機 |
| 下載權限: |
此報告為加密報告,僅限高級會員查看 |
|
|
本期投資提示: 當我們在說模型進步的時候,我們在說什么?智能化水平的提升和錯誤率(幻覺)的下降。智能化水平的提升,打開了AI大模型能力的上限,而幻覺的控制,則是保障模型的下限,而我們認為,下限是讓AI應用真正落地的核心。 何謂幻覺?即語言模型常產(chǎn)生過度自信的似真謬誤,這種錯誤模式就被稱為幻覺。當下AI大模型的幻覺主要包括無中生有、事實錯誤、語境誤解、邏輯謬誤等。根據(jù)哥德爾不完備定理,一個系統(tǒng)或者大模型是不能自證清白的,必定有一些幻覺是無法消滅的。因此幻覺控制和智能化水平提升一樣,是一個始終伴隨AI算法發(fā)展的重要命題。 圍繞“幻覺”這個命題,我們產(chǎn)生了四個核心思考:1)導致幻覺的因素有哪些;2)如何降低幻覺,從模型算法、數(shù)據(jù)、工程化幾個維度探討;3)Agent進化的痛點:多步執(zhí)行如何解決錯誤累積問題? 4)幻覺對于不同領域AI應用落地的影響?怎么評估?已經(jīng)看到的趨勢? 幻覺來自于:1)模型架構(gòu);2)有毒數(shù)據(jù);3)獎勵目標對于準確性要求的缺失;4)上下文窗口限制了模型理解力。因此控制幻覺的方案,也應對著這四個因素。模型層面,使用更多人類偏好數(shù)據(jù)對齊,同時擴大上下文窗口(32K—>128K),以提升模型的理解能力;架構(gòu)創(chuàng)新則主要從模型記憶入手,來解決注意力機制導致的幻覺問題。 數(shù)據(jù)端,最核心是喂給模型高質(zhì)量的數(shù)據(jù)。因此當下業(yè)界聚焦高質(zhì)量數(shù)據(jù)集的構(gòu)建,海天瑞聲、Scale AI采用“AI +人工”模式清洗標注,減少訓練噪聲;推理階段通過自動過濾矛盾信息,提升輸入數(shù)據(jù)可靠性。 工程化方面,RAG技術成2B標配,Gartner預計2025年企業(yè)采用率將達68%,搭配D&Q問題分解框架,將問題拆解為多個相互依賴的子問題,并通過深度優(yōu)先搜索的方式逐步推進推理路徑,從而減少幻覺的發(fā)生。 我們對幻覺問題的回答是,2026年,AI模型的幻覺會得到有效控制。Vectara HHEM測評中,全球幻覺率最低的TOP25個大模型。其幻覺率低于8%。通過工程化+RAG方式,部分嚴肅場景下AI模型的可用性也正在提升。 在幻覺能夠得到控制的前提下,我們看好三大方向:1)最先成熟的AI應用:稅友股份、合合信息、鼎捷數(shù)智、卓易信息、漢得信息、萬興科技等;2)幻覺不敏感,商業(yè)化速度快的營銷AI:邁富時、新致軟件、光云科技等;3)數(shù)據(jù)+AI infra:海天瑞聲、深信服等。 風險提示:技術迭代不及預期風險;數(shù)據(jù)質(zhì)量與合規(guī)風險;商業(yè)化進展不及預期風險等。
|
|