>> 德邦證券-計算機行業(yè)周報:AI Agent,從API到GUI交互,Operator重塑流程化-250125
| 上傳日期: |
2025/1/26 |
大?。?/td>
| 465KB |
| 格式: |
pdf 共2頁 |
來源: |
德邦證券 |
| 評級: |
優(yōu)于大市 |
作者: |
陳涵泊,李佩京 |
| 行業(yè)名稱: |
計算機 |
| 下載權(quán)限: |
無限制-登錄即可下載 |
|
|
OpenAI首款A(yù)I智能體Operator發(fā)布,依托CUA模型取得全新的SOTA。北京時間1月24日凌晨,OpenAI首款A(yù)I智能體Operator亮相。Operator由ComputerUsing Agent(CUA)新模型提供支持,它能夠代理用戶執(zhí)行基于網(wǎng)頁的操作,直接與網(wǎng)頁交互——像人類一樣點擊、滾動和輸入文字,自動執(zhí)行各種復(fù)雜操作,包括編寫代碼、預(yù)訂餐廳、購物等。期間,用戶可以添加其他指令和隨時接管控制,Operator還可以同時運行多項任務(wù),并在關(guān)鍵操作中會要求用戶確認。目前,Operator已面向美國Pro套餐用戶開放,下一步將擴展至Plus、Team以及Enterprise用戶,并在未來將相關(guān)功能集成至ChatGPT當(dāng)中。OpenAI表示,CUA仍處于早期階段且存在局限性,但仍取得了最新的SOTA。在OSWorld上實現(xiàn)38.1%的完整計算機使用任務(wù)成功率,在WebArena上實現(xiàn)了58.1%的成功率,在WebVoyager上實現(xiàn)87%的Web端任務(wù)。 Operator融合視覺識別與高級推理,跨越API實現(xiàn)復(fù)雜步驟規(guī)劃。早在2024年10月,Anthropic推出革命性功能——Computer use,可通過API即可實現(xiàn)AI與PC交互。此次CUA將GPT-4o的視覺功能與通過強化學(xué)習(xí)獲得的高級推理相結(jié)合,經(jīng)過訓(xùn)練可以與圖形用戶界面(GUI,即人們在屏幕上看到的按鈕、菜單和文本字段)進行交互。也就是,Operator可以對瀏覽器進行“查看”(通過屏幕截圖)、和“交互”(使用鼠標(biāo)和鍵盤支持所有操作),因此能夠在Web之上執(zhí)行操作且無需自定義API集成。一旦遭遇難題或者錯誤,Operator還可利用其推理能力實現(xiàn)自我糾正。具體地,Operator通過以下三步循環(huán)迭代完成操作。1)感知:計算機的屏幕截圖被添加到模型的上下文中,提供計算機當(dāng)前狀態(tài)的視覺快照;2)推理:使用思路鏈推理后續(xù)步驟,同時考慮當(dāng)前和過去的屏幕截圖和操作;3)行動:執(zhí)行操作(單擊、滾動或鍵入),直到它決定任務(wù)已完成或需要用戶輸入。 AIAgent將是生成式AI的下一個前沿,2024年市場規(guī)模達50億美元。據(jù)《科創(chuàng)板日報》不完全梳理,國內(nèi)外科技大廠轉(zhuǎn)向AIAgent。微軟在其Dynamics365平臺一口氣推出10個自主AI智能體,稱相當(dāng)于187名全職員工的產(chǎn)出;谷歌發(fā)布號稱“智能體時代”最強大模型Gemini 2,提供多模態(tài)開發(fā)接口,讓智能體能“看懂”物理世界;華為公布了一項可讓AI像人類一樣操作手機的新研究成果。而在Operator發(fā)布當(dāng)日,智譜將GLM-PC 1.0升級至GLM-PC 1.1,深度融合多模態(tài)模型CogAgent與代碼模型CodeGeex,以代碼形式指揮工作流程和工具調(diào)用,并強化了深度思考模式下的規(guī)劃、推理、反思能力。我們認為,隨著龍頭廠商接連入局,AIAgent將加快技術(shù)迭代,充分挖掘下游應(yīng)用場景,具備廣闊的發(fā)展空間。根據(jù)Markets & Markets的預(yù)測,到2030年,AI代理的市場規(guī)模將從2024年的50億美元激增至470億美元,年均復(fù)合增長率為44.8%。 投資建議。建議關(guān)注:博睿數(shù)據(jù)、泛微網(wǎng)絡(luò)、金蝶國際、鼎捷數(shù)智、漢得信息、彩訊股份、夢網(wǎng)科技、致遠互聯(lián)、普聯(lián)軟件、金證股份、中科創(chuàng)達、普元信息。 風(fēng)險提示:技術(shù)迭代不及預(yù)期、AIAgent商業(yè)化不及預(yù)期、地緣政治沖突等。
|
|