>> 東吳證券-自動(dòng)化設(shè)備行業(yè)點(diǎn)評(píng)報(bào)告:人形機(jī)器人思考-專題2,我們離真正的具身智能大模型還有多遠(yuǎn)?-250227
| 上傳日期: |
2025/2/27 |
大?。?/td>
| 503KB |
| 格式: |
pdf 共3頁(yè) |
來源: |
東吳證券 |
| 評(píng)級(jí): |
增持 |
作者: |
周爾雙 |
| 下載權(quán)限: |
無限制-登錄即可下載 |
|
|
投資要點(diǎn) 背景:2.20日Figure AI發(fā)布Helix VLA大模型引爆市場(chǎng)關(guān)注,但我們發(fā)現(xiàn)市場(chǎng)對(duì)于具身智能大模型的認(rèn)知仍待提升,本文希望通俗易懂的講明白,我們需要什么樣的具身智能大模型?我們離真正的具身智能大模型還有多遠(yuǎn)? 問題一:具身智能大模型(VLA)是什么? VLA(Vision-Language-Action)大模型指的是視覺-語(yǔ)言-動(dòng)作大模型,能夠讓機(jī)器人通過理解環(huán)境和語(yǔ)言指令,并通過執(zhí)行模塊輸出為動(dòng)作。 問題二:VLA大模型中分層和端到端模式的區(qū)別?業(yè)界目前的選擇? VLA模型在執(zhí)行過程中,一般有三個(gè)步驟——1)接收并理解語(yǔ)音和圖像輸入;2)根據(jù)接收的信息做推理決策;3)根據(jù)決策生成動(dòng)作指令并控制機(jī)器人運(yùn)動(dòng)。簡(jiǎn)單來說,如果這三個(gè)步驟是在一個(gè)模型中完成的,則是端到端大模型,如果這三個(gè)步驟分別是調(diào)用三個(gè)不同的模型完成,則是分層模型。 端到端模式的優(yōu)缺點(diǎn):1)優(yōu)點(diǎn)在于反應(yīng)速度快+規(guī)模化+能夠?qū)崿F(xiàn)智能涌現(xiàn);2)缺點(diǎn)在于難度高+需要大量訓(xùn)練數(shù)據(jù)+短期難以落地。 結(jié)論&現(xiàn)實(shí)情況:短期視角來看,目前國(guó)內(nèi)初創(chuàng)人形機(jī)器人企業(yè)多采用分層模式,主要是為了快速商業(yè)化落地;僅有少數(shù)企業(yè)例如特斯拉、星動(dòng)紀(jì)元等堅(jiān)持端到端模型,但從長(zhǎng)期視角來看,端到端模式是最終實(shí)現(xiàn)具身智能涌現(xiàn)的必要條件。 問題三:訓(xùn)練出好用的端到端大模型難點(diǎn)在哪里——瓶頸在于數(shù)據(jù)。 1)數(shù)據(jù)量差距巨大:相較于VLM大模型億條級(jí)別的數(shù)據(jù)量,目前機(jī)器人實(shí)際單一場(chǎng)景的訓(xùn)練數(shù)據(jù)量?jī)H僅在千條和萬(wàn)條級(jí)別,差距百倍。 2)機(jī)器人數(shù)據(jù)獲取難度極高:相較于互聯(lián)網(wǎng)上常見的語(yǔ)料供VLM大模型訓(xùn)練,機(jī)器人訓(xùn)練數(shù)據(jù)獲取難度極高。目前有三種數(shù)據(jù)獲取模式: ?、僬鎸?shí)數(shù)據(jù)遙操采集:?jiǎn)栴}在于成本極高,目前動(dòng)捕設(shè)備一套價(jià)格在幾十萬(wàn)區(qū)間,初創(chuàng)企業(yè)如果要靠動(dòng)捕設(shè)備遙操采集數(shù)據(jù),成本非常高; ?、谔摂M生成數(shù)據(jù):例如銀河通用發(fā)布的GraspVLA,通過虛擬仿真技術(shù)生成數(shù)據(jù),用于機(jī)器人訓(xùn)練,但目前難以解決sim-to-real gap。簡(jiǎn)單來說,就是用虛擬仿真數(shù)據(jù)訓(xùn)練機(jī)器人效果很差,如果是簡(jiǎn)單的抓放搬運(yùn)場(chǎng)景,虛擬數(shù)據(jù)相對(duì)可行,但如果涉及到柔性場(chǎng)景,比如說衣服被子等柔性物體,就很難運(yùn)用。因?yàn)樯婕暗饺嵝晕矬w形變仿真,在物理層面本身就很難建模。 ?、壅嫒藬?shù)據(jù)映射:UMI和DexCap(斯坦福機(jī)器人團(tuán)隊(duì))等正在探索真人數(shù)據(jù)映射(即采集真實(shí)人的數(shù)據(jù),通過某種映射關(guān)系轉(zhuǎn)化為機(jī)器人數(shù)據(jù)),但目前還比較早期。 3)遙操采集的數(shù)據(jù)本身存在毒性:①人在運(yùn)動(dòng)過程中會(huì)有額外的運(yùn)動(dòng)軌跡:例如簡(jiǎn)單的搬箱子,人在遙操錄制過程中,可能會(huì)因?yàn)橥饨绺蓴_停頓幾秒,但這個(gè)停頓對(duì)于機(jī)器人來說就存在毒性,因?yàn)槠錈o法理解人為什么要停頓。②人的運(yùn)動(dòng)軌跡和機(jī)器人不一致:目前市面上大量機(jī)器人都是以旋轉(zhuǎn)關(guān)節(jié)為主,而人的上下肢是直線關(guān)節(jié),因此同樣是搬箱子的動(dòng)作,人和機(jī)器人的運(yùn)動(dòng)軌跡就是不一致的,這時(shí)候用真人的數(shù)據(jù)去訓(xùn)練機(jī)器人本身就存在毒性。 4)機(jī)器人本體方案未收斂導(dǎo)致數(shù)據(jù)難以復(fù)用:例如用特斯拉本體采集的數(shù)據(jù)很難給智元的機(jī)器人來訓(xùn)練,因?yàn)楸倔w方案不同。 問題四:數(shù)據(jù)端存在這么多問題,業(yè)界如何解決? 真實(shí)的情況是,業(yè)界目前還無法解決上述數(shù)據(jù)端的問題。但目前各家都選擇在自己的方案上努力收集數(shù)據(jù),先在單一場(chǎng)景下實(shí)現(xiàn)一定程度的泛化,從而讓更多人形機(jī)器人投入實(shí)際運(yùn)用。我們認(rèn)為可能是3-5年后,當(dāng)市場(chǎng)上有足夠多的人形機(jī)器人數(shù)據(jù),并且硬件方案逐步收斂,具身智能基礎(chǔ)模型呈現(xiàn)出一定的智能涌現(xiàn),才有可能實(shí)現(xiàn)真正的端到端具身智能大模型。 問題五:能否采用Deepseek的范式來加速具身智能大模型的發(fā)展? Deepseek是通過pre-train+post-train(強(qiáng)化學(xué)習(xí))的模式,并且導(dǎo)入高質(zhì)量數(shù)據(jù),來降低大模型的算力和數(shù)據(jù)量需求。但目前來看,這種范式對(duì)具身智能大模型來說,路徑是正確的,但基本要素還不具備。一方面,具身智能大模型并沒有一個(gè)強(qiáng)大的基礎(chǔ)模型;另一方面,也不存在一個(gè)完善的強(qiáng)化學(xué)習(xí)流程。學(xué)界一直在推行所謂的模仿學(xué)習(xí)+后訓(xùn)練強(qiáng)化學(xué)習(xí)的方案(類似于deepseek的路線),就是通過模仿學(xué)習(xí)達(dá)成0-1,然后通過強(qiáng)化學(xué)習(xí)達(dá)成1-10,但目前來看必要條件還未達(dá)成。 問題六:Figure Helix大模型詳解和局限點(diǎn)解析: Helix的特點(diǎn)是準(zhǔn)分層架構(gòu),用一個(gè)開源的70e參數(shù)的VLM作為大腦,然后下面結(jié)合一個(gè)Transformer架構(gòu)的動(dòng)作策略快系統(tǒng),這個(gè)快系統(tǒng)實(shí)際只要用8000萬(wàn)參數(shù)去吸收500h的數(shù)據(jù),然后使其泛化性變得足夠強(qiáng)。 PS:簡(jiǎn)單理解就是大腦的思考完全交由VLM大模型,因?yàn)榛ヂ?lián)網(wǎng)上有很多家居的視頻和數(shù)據(jù),因此可以通過VLM大模型去進(jìn)行解析,本身VLM大模型就已經(jīng)有很好的泛化性。再將解析出來的指令通過快系統(tǒng)去執(zhí)行。 優(yōu)劣點(diǎn)解析:Helix的優(yōu)點(diǎn)在于:快速商業(yè)化能力,能夠用很小的數(shù)據(jù)量達(dá)到很好的泛化水平;Helix的劣勢(shì)在于:1)Helix是一種純模仿學(xué)習(xí),
|
|