琅琊榜海宴小说,欢乐颂小说在线阅读,好看的历史书籍推荐

>> 東吳證券-自動(dòng)化設(shè)備行業(yè)點(diǎn)評(píng)報(bào)告：人形機(jī)器人思考-專題2，我們離真正的具身智能大模型還有多遠(yuǎn)？-250227

上傳日期：	2025/2/27	大?。?/td>	503KB
格式：	pdf 共3頁(yè)	來源：	東吳證券
評(píng)級(jí)：	增持	作者：	周爾雙
下載權(quán)限：	無限制-登錄即可下載

投資要點(diǎn)
　　背景：2.20日Figure AI發(fā)布Helix VLA大模型引爆市場(chǎng)關(guān)注，但我們發(fā)現(xiàn)市場(chǎng)對(duì)于具身智能大模型的認(rèn)知仍待提升，本文希望通俗易懂的講明白，我們需要什么樣的具身智能大模型？我們離真正的具身智能大模型還有多遠(yuǎn)？
　　問題一：具身智能大模型（VLA）是什么？
　　VLA（Vision-Language-Action）大模型指的是視覺-語(yǔ)言-動(dòng)作大模型，能夠讓機(jī)器人通過理解環(huán)境和語(yǔ)言指令，并通過執(zhí)行模塊輸出為動(dòng)作。
　　問題二：VLA大模型中分層和端到端模式的區(qū)別？業(yè)界目前的選擇？
　　VLA模型在執(zhí)行過程中，一般有三個(gè)步驟——1）接收并理解語(yǔ)音和圖像輸入；2）根據(jù)接收的信息做推理決策；3）根據(jù)決策生成動(dòng)作指令并控制機(jī)器人運(yùn)動(dòng)。簡(jiǎn)單來說，如果這三個(gè)步驟是在一個(gè)模型中完成的，則是端到端大模型，如果這三個(gè)步驟分別是調(diào)用三個(gè)不同的模型完成，則是分層模型。
　　端到端模式的優(yōu)缺點(diǎn)：1）優(yōu)點(diǎn)在于反應(yīng)速度快+規(guī)模化+能夠?qū)崿F(xiàn)智能涌現(xiàn)；2）缺點(diǎn)在于難度高+需要大量訓(xùn)練數(shù)據(jù)+短期難以落地。
　　結(jié)論&現(xiàn)實(shí)情況：短期視角來看，目前國(guó)內(nèi)初創(chuàng)人形機(jī)器人企業(yè)多采用分層模式，主要是為了快速商業(yè)化落地；僅有少數(shù)企業(yè)例如特斯拉、星動(dòng)紀(jì)元等堅(jiān)持端到端模型，但從長(zhǎng)期視角來看，端到端模式是最終實(shí)現(xiàn)具身智能涌現(xiàn)的必要條件。
　　問題三：訓(xùn)練出好用的端到端大模型難點(diǎn)在哪里——瓶頸在于數(shù)據(jù)。
　　1）數(shù)據(jù)量差距巨大：相較于VLM大模型億條級(jí)別的數(shù)據(jù)量，目前機(jī)器人實(shí)際單一場(chǎng)景的訓(xùn)練數(shù)據(jù)量?jī)H僅在千條和萬(wàn)條級(jí)別，差距百倍。
　　2）機(jī)器人數(shù)據(jù)獲取難度極高：相較于互聯(lián)網(wǎng)上常見的語(yǔ)料供VLM大模型訓(xùn)練，機(jī)器人訓(xùn)練數(shù)據(jù)獲取難度極高。目前有三種數(shù)據(jù)獲取模式：
　?、僬鎸?shí)數(shù)據(jù)遙操采集：?jiǎn)栴}在于成本極高，目前動(dòng)捕設(shè)備一套價(jià)格在幾十萬(wàn)區(qū)間，初創(chuàng)企業(yè)如果要靠動(dòng)捕設(shè)備遙操采集數(shù)據(jù)，成本非常高；
　?、谔摂M生成數(shù)據(jù)：例如銀河通用發(fā)布的GraspVLA，通過虛擬仿真技術(shù)生成數(shù)據(jù)，用于機(jī)器人訓(xùn)練，但目前難以解決sim-to-real gap。簡(jiǎn)單來說，就是用虛擬仿真數(shù)據(jù)訓(xùn)練機(jī)器人效果很差，如果是簡(jiǎn)單的抓放搬運(yùn)場(chǎng)景，虛擬數(shù)據(jù)相對(duì)可行，但如果涉及到柔性場(chǎng)景，比如說衣服被子等柔性物體，就很難運(yùn)用。因?yàn)樯婕暗饺嵝晕矬w形變仿真，在物理層面本身就很難建模。
　?、壅嫒藬?shù)據(jù)映射：UMI和DexCap（斯坦福機(jī)器人團(tuán)隊(duì)）等正在探索真人數(shù)據(jù)映射（即采集真實(shí)人的數(shù)據(jù)，通過某種映射關(guān)系轉(zhuǎn)化為機(jī)器人數(shù)據(jù)），但目前還比較早期。
　　3）遙操采集的數(shù)據(jù)本身存在毒性：①人在運(yùn)動(dòng)過程中會(huì)有額外的運(yùn)動(dòng)軌跡：例如簡(jiǎn)單的搬箱子，人在遙操錄制過程中，可能會(huì)因?yàn)橥饨绺蓴_停頓幾秒，但這個(gè)停頓對(duì)于機(jī)器人來說就存在毒性，因?yàn)槠錈o法理解人為什么要停頓。②人的運(yùn)動(dòng)軌跡和機(jī)器人不一致：目前市面上大量機(jī)器人都是以旋轉(zhuǎn)關(guān)節(jié)為主，而人的上下肢是直線關(guān)節(jié)，因此同樣是搬箱子的動(dòng)作，人和機(jī)器人的運(yùn)動(dòng)軌跡就是不一致的，這時(shí)候用真人的數(shù)據(jù)去訓(xùn)練機(jī)器人本身就存在毒性。
　　4）機(jī)器人本體方案未收斂導(dǎo)致數(shù)據(jù)難以復(fù)用：例如用特斯拉本體采集的數(shù)據(jù)很難給智元的機(jī)器人來訓(xùn)練，因?yàn)楸倔w方案不同。
　　問題四：數(shù)據(jù)端存在這么多問題，業(yè)界如何解決？
　　真實(shí)的情況是，業(yè)界目前還無法解決上述數(shù)據(jù)端的問題。但目前各家都選擇在自己的方案上努力收集數(shù)據(jù)，先在單一場(chǎng)景下實(shí)現(xiàn)一定程度的泛化，從而讓更多人形機(jī)器人投入實(shí)際運(yùn)用。我們認(rèn)為可能是3-5年后，當(dāng)市場(chǎng)上有足夠多的人形機(jī)器人數(shù)據(jù)，并且硬件方案逐步收斂，具身智能基礎(chǔ)模型呈現(xiàn)出一定的智能涌現(xiàn)，才有可能實(shí)現(xiàn)真正的端到端具身智能大模型。
　　問題五：能否采用Deepseek的范式來加速具身智能大模型的發(fā)展？
　　Deepseek是通過pre-train+post-train（強(qiáng)化學(xué)習(xí)）的模式，并且導(dǎo)入高質(zhì)量數(shù)據(jù)，來降低大模型的算力和數(shù)據(jù)量需求。但目前來看，這種范式對(duì)具身智能大模型來說，路徑是正確的，但基本要素還不具備。一方面，具身智能大模型并沒有一個(gè)強(qiáng)大的基礎(chǔ)模型；另一方面，也不存在一個(gè)完善的強(qiáng)化學(xué)習(xí)流程。學(xué)界一直在推行所謂的模仿學(xué)習(xí)+后訓(xùn)練強(qiáng)化學(xué)習(xí)的方案（類似于deepseek的路線），就是通過模仿學(xué)習(xí)達(dá)成0-1，然后通過強(qiáng)化學(xué)習(xí)達(dá)成1-10，但目前來看必要條件還未達(dá)成。
　　問題六：Figure Helix大模型詳解和局限點(diǎn)解析：
　　Helix的特點(diǎn)是準(zhǔn)分層架構(gòu)，用一個(gè)開源的70e參數(shù)的VLM作為大腦，然后下面結(jié)合一個(gè)Transformer架構(gòu)的動(dòng)作策略快系統(tǒng)，這個(gè)快系統(tǒng)實(shí)際只要用8000萬(wàn)參數(shù)去吸收500h的數(shù)據(jù)，然后使其泛化性變得足夠強(qiáng)。
　　PS：簡(jiǎn)單理解就是大腦的思考完全交由VLM大模型，因?yàn)榛ヂ?lián)網(wǎng)上有很多家居的視頻和數(shù)據(jù)，因此可以通過VLM大模型去進(jìn)行解析，本身VLM大模型就已經(jīng)有很好的泛化性。再將解析出來的指令通過快系統(tǒng)去執(zhí)行。
　　優(yōu)劣點(diǎn)解析：Helix的優(yōu)點(diǎn)在于：快速商業(yè)化能力，能夠用很小的數(shù)據(jù)量達(dá)到很好的泛化水平；Helix的劣勢(shì)在于：1）Helix是一種純模仿學(xué)習(xí)，

相關(guān)研報(bào)

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频