>> 西部證券-計算機行業(yè)人工智能系列報告(六):交互型多模態(tài)大模型有望帶來應用的爆發(fā)起點-240903
| 上傳日期: |
2024/9/4 |
大小: |
4960KB |
| 格式: |
pdf 共39頁 |
來源: |
西部證券 |
| 評級: |
超配 |
作者: |
鄭宏達 |
| 行業(yè)名稱: |
計算機 |
| 下載權(quán)限: |
此報告為加密報告 |
|
|
交互型多模態(tài)大模型是指跨越單一模態(tài)的限制,支持文本、音頻、圖像、視頻等模態(tài)任意組合的輸入輸出,能做出實時的、“類人”的理解和反饋,可以跟人無縫交流的大模型,目前最具代表性的是OpenAI的GPT-4o。特點如下:1)原生多模態(tài):跨文本、視頻和音頻等模態(tài)端到端訓練的大模型,所有輸入和輸出都由同一神經(jīng)網(wǎng)絡處理。2)快速響應:能做到極低延遲,響應速度比肩人類,且可以做到對話隨時打斷?,F(xiàn)在GPT-4o能在短至232毫秒、平均320毫秒的時間內(nèi)響應音頻輸入,而過去GPT-3.5平均延時為2.8秒、GPT-4為5.4秒。3)情感表達:回復有“人味”,情緒飽滿,會帶來極強的交互沉浸感。4)記憶:能回憶并聯(lián)系此前“看”到的信息做出回答,而不是僅僅依靠當前輸入。 交互型多模態(tài)大模型成本將降至幾何?大模型降本趨勢顯著。8月,OpenAI發(fā)布更強且更具性價比的GPT-4o新版本,相比5月版本價格下降超40%至$4/100萬tokens。按照這個趨勢,我們預計以GPT-4o為代表的交互型多模態(tài)大模型的成本將繼續(xù)快速下降,每百萬tokens的推理成本或?qū)⒃趦赡陜?nèi)降至美分量級。 交互型多模態(tài)大模型進展如何? OpenAI與谷歌雙巨頭搶灘,分別發(fā)布GPT-4o和AI智能體項目Project Astra,Meta也于2024年5月發(fā)布具有原生多模態(tài)特性的Chameleon-34B。國內(nèi)的大模型多處于語音交互階段,商湯領銜發(fā)布流式多模態(tài)交互大模型“日日新5o”,智譜面向C端開放“視頻通話”功能。 為什么交互型多模態(tài)大模型有望帶來應用的爆發(fā)?1)人類生活在一個由多種模態(tài)信息構(gòu)成的世界,會同時收到多個互補的、融合的、不同模態(tài)的感官輸入,多模態(tài)更符合人類感知周邊、探索世界的方式。2)應用是連接人類意圖與信息及技術(shù)實現(xiàn)的媒介,其本質(zhì)是交互。我們認為從PC互聯(lián)網(wǎng)時代,到移動互聯(lián)網(wǎng)時代,再到現(xiàn)在的AI時代,應用發(fā)展的核心就是人機交互的不斷進化與深化。所以在大模型迭代過程中,性能提高固然重要,但交互的升級也同樣具有重大價值,交互型多模態(tài)大模型的出現(xiàn)有望推動人機交互變革——向更為簡單的自然語言交互形式發(fā)展。 交互型多模態(tài)大模型會帶來怎樣的應用?我們將交互型多模態(tài)大模型的應用分為:1)數(shù)字智能,大模型提供軟件形式的服務,主要應用場景包括教育、編程、醫(yī)療健康、游戲、情感陪伴等。2)具身智能,需要硬件支持來實現(xiàn)三維空間內(nèi)的運動行為,如人形機器人、智能家居、智能座艙等。 交互型多模態(tài)大模型商業(yè)模式展望:1)聊天助手APP。2)作為基礎模型接入各類應用。3)與終端OS深度融合成為AI時代的“超級入口”。 相關標的梳理:1)交互型多模態(tài)大模型:商湯-W、云從科技-UW;2)數(shù)字智能應用:金山辦公、科大訊飛、虹軟科技、美圖公司;3)具身智能應用:海康威視、大華股份;4)算力:寒武紀、軟通動力、海光信息、浪潮信息、中科曙光、神州數(shù)碼。 風險提示:AI技術(shù)突破不及預期、終端智能需求不及預期、宏觀經(jīng)濟增長不及預期、國際環(huán)境變化。
|
|