>> 信達證券-電子行業(yè):世界模型探索空間智能,AI復雜場景落地可期-250305
| 上傳日期: |
2025/3/5 |
大?。?/td>
| 2222KB |
| 格式: |
pdf 共16頁 |
來源: |
信達證券 |
| 評級: |
看好 |
作者: |
莫文宇,楊宇軒 |
| 行業(yè)名稱: |
電子 |
| 下載權(quán)限: |
無限制-登錄即可下載 |
|
|
世界模型研究進展迅速,應用端機遇與挑戰(zhàn)并存。長期以來,科學界一直渴望開發(fā)一個統(tǒng)一的模型,該模型可以復制其世界的基本動態(tài),以追求通用人工智能(AGI)。世界模型尚無統(tǒng)一的定義,英偉達官網(wǎng)的定義為:“世界模型是理解現(xiàn)實世界動態(tài)(包括其物理和空間屬性)的生成式AI模型。它們使用文本、圖像、視頻和運動等輸入數(shù)據(jù)來生成視頻。通過學習,它們能夠理解現(xiàn)實世界環(huán)境的物理特性,從而對運動、應力以及感官數(shù)據(jù)中的空間關(guān)系等動態(tài)進行表示和預測?!?nbsp;Sora發(fā)布之后,世界模型獲得了更為廣泛的關(guān)注。從功能方面看,在許多用例中,Sora確實具備一定的理解和預測世界的能力,且其生成的視頻在大部分時候也能有良好的一致性。但也有人認為Sora僅是像素層面的生成,這會導致一些無法解釋的現(xiàn)象,這表明Sora并未理解物理世界。從技術(shù)架構(gòu)看,Sora是一種基于擴散的視頻生成模型。但是無論如何,Sora的結(jié)果表明,擴展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有前景的途徑。應用層面看,隨著視覺生成模型和多模態(tài)大模型的進展,世界模型在自動駕駛領(lǐng)域受到了廣泛的關(guān)注。使用基于擴散的視頻生成模型作為世界模型可以部分解決信息丟失和建模效率低下的問題,近年來已有相關(guān)的研究在不斷進行。機器人領(lǐng)域的應用也是主要方向之一,世界模型讓機器人在現(xiàn)實中處理通用任務展示出巨大前景。傳統(tǒng)的機器人關(guān)鍵組件會被建模,機器人在執(zhí)行任務時無需理解世界。而當機器人被部署在新的場景中時,機器人可能會手足無措,因此,世界模型對物理世界的理解和預測能力是機器人智能化的關(guān)鍵利器,LLMs和世界模型被認為是實現(xiàn)通用人工智能(AGI)的可能途徑之一,它們可以成為機器理解世界基本規(guī)律的起點。目前AI發(fā)展迅速,大模型正快速學習如何理解物理世界,世界模型也有望迎來快速迭代時期。在近期發(fā)布的大模型中,o3-mini可以模擬生成一個小球在四維超立方體內(nèi)彈射的Python代碼。而Grok3則可以模擬航天器任務,生成的3D動畫準確描述了飛船、地球、太陽、火星的位置關(guān)系。這些成果有可能從底層催動世界模型的進展,讓AI的智能化進入更高的水平。 眾多廠商推出世界模型,相關(guān)領(lǐng)域已展開角逐。英偉達推出Cosmos,賦能機器人和自動駕駛開發(fā)者。Cosmos世界基礎(chǔ)模型是一套用于物理感知視頻生成的開放式擴散和自回歸Transformer模型。這些模型已基于2000萬小時的真實世界人類互動、環(huán)境、工業(yè)、機器人和駕駛數(shù)據(jù),訓練了9,000萬億個token。李飛飛創(chuàng)立World Labs,探索從2D到3D的路徑。World Labs是一家空間智能AI公司,由在AI學術(shù)領(lǐng)域享有盛譽的李飛飛博士創(chuàng)立。World Labs致力于構(gòu)建空間智能大型世界模型(LWM)來感知、生成3D世界并與之交互。其目標是將AI模型從像素的2D平面提升到完整的3D世界。World Labs僅創(chuàng)立了三個月,便吸引了英偉達、AMD等公司的融資,估值超過10億美元。谷歌旗下DeepMind推出Genie2,性能強大用例廣泛。Genie 2是一種自回歸潛在擴散模型,在大型視頻數(shù)據(jù)集上進行了訓練。通過自動編碼器后,視頻中的潛在幀被傳遞到大型transformer動力學模型,該模型使用類似于大型語言模型使用的因果掩碼進行訓練。在推理時,Genie 2可以以自回歸方式進行采樣,逐幀執(zhí)行單個作和過去的潛幀。谷歌使用無分類器的指導來提高可控性。在DeepMind官網(wǎng)上,Genie2的能力也非常強大。昆侖萬維發(fā)布Matrix-Zero,國產(chǎn)模型緊追不舍。昆侖萬維發(fā)布的Matrix-Zero世界模型包含兩款子模型,其中,3D場景生成大模型支持將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實合理的3D場景。而可交互視頻生成大模型,提供以用戶輸入為核心驅(qū)動的可交互空間智能視頻生成方案,支持根據(jù)用戶實時輸入生成互動視頻效果,具備更精準控制的action model。 投資建議:無論是北美還是國內(nèi),推理成本的降低及推理性能的迅速提升趨勢非常顯著。微軟董事長Satya Nadella曾在法說會表示,每代硬件的性價比提高2倍以上,而由于軟件優(yōu)化,每代模型的性能提升10倍以上。DeepSeek卓越的性價比讓人印象深刻,據(jù)Semianalysis觀察,在GPT-4上同樣有類似的趨勢,即每過一年,算法改進和優(yōu)化使得推理成本降低10倍,同時性能提升10倍。因此,我們認為,AI的發(fā)展目前正如火如荼地進行著,大模型不會滿足于幫人類查找資料這樣的小事,長期看它甚至具備改變部分行業(yè)運行邏輯的潛力。而當前伴隨推理性能的提升和推理成本的降低,許多算力密集型的場景有了落地的可能,本文所探討的世界模型便是其中一個例子。世界模型可以幫助端側(cè)理解并預測世界,從而產(chǎn)生正確的決策。從云來看,由于多模態(tài)數(shù)據(jù)的訓練與推理,算力需求總體仍然呈現(xiàn)迅速增長的趨勢;而從端來看,人形機器人、自動駕駛等重要賽道有望迅速前進,以突破目前的智能化瓶頸。AI呈現(xiàn)出巨大的產(chǎn)業(yè)前景,建議關(guān)注相關(guān)產(chǎn)業(yè)鏈優(yōu)質(zhì)個股。 相關(guān)個股:【AI云側(cè)】工業(yè)富聯(lián)/滬電股份/生益科技/深南電路/勝宏科技/寒武紀/海光信息;【AI端側(cè)】藍思科技/領(lǐng)益智
|
|