神墓辰东小说,有声小说在线收听网

登錄忘記密碼注冊

>> 國盛證券-計算機行業(yè)點評：RT-2，從VLM到VLA，機器人軟件體系再次進(jìn)步-230802

上傳日期：	2023/8/2	大小：	1173KB
格式：	pdf 共13頁	來源：	國盛證券
評級：	增持	作者：	劉高暢
行業(yè)名稱：	計算機
下載權(quán)限：	無限制-登錄即可下載

RT-2面世，VLA模型將視覺-語言轉(zhuǎn)化為機器人動作。近期Google DeepMind發(fā)布Robotic Transformer 2(RT-2)，是一種新穎的視覺-語言-動作(VLA)模型。RT-2建立在Robotic Transformer 1(RT-1)的基礎(chǔ)上，這是一個經(jīng)過多任務(wù)演示訓(xùn)練的模型，它可以學(xué)習(xí)機器人數(shù)據(jù)中看到的任務(wù)和對象的組合。RT-2以視覺語言模型（VLM）為基礎(chǔ)，VLM已接受網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的訓(xùn)練，以執(zhí)行視覺問答、圖像字幕或?qū)ο笞R別等任務(wù)，RT-2采用PaLI-X和PaLM-E作為支柱，將一個或多個圖像作為輸入，并生成一系列通常代表自然語言文本的標(biāo)記。RT-2通過將機器人動作表示為模型輸出中的token（類似于語言token）來制機器人，并將操作描述為可以由標(biāo)準(zhǔn)自然語言標(biāo)記生成器處理的字符串。與之前的基線（例如之前的RT-1模型和VC-1等模型）相比，RT-2的泛化性能大幅提高。Google DeepMind對機器人沒看見過的物體、背景和環(huán)境進(jìn)行不同程度的評估，這需要機器人從VLM預(yù)訓(xùn)練中學(xué)習(xí)泛化，RT-2保留了機器人數(shù)據(jù)中看到的原始任務(wù)的性能，并提高了機器人在以前看不見的場景中的性能，從RT-1的32%提高到62%，顯示了大規(guī)模預(yù)訓(xùn)練的巨大優(yōu)勢。受到大語言模型中使用的思維鏈提示方法的啟發(fā)，Google DeepMind還將機器人控制與思維鏈推理相結(jié)合，以便能夠在單個模型中學(xué)習(xí)長期規(guī)劃和低級技能。
　　從VLM到VLA，RT-2進(jìn)一步驗證了“ViT+類GPT+機械”的機器人方案。從VLM到VLA，主要進(jìn)展在于將機器人動作直接作為模型token輸出，省去了VLM模型將輸出的指令翻譯成動作控制信號的步驟。ViT模型將語言模型的transformer架構(gòu)用于視覺模型，代替了傳統(tǒng)的CNN，統(tǒng)一了CV和NLP的架構(gòu)。2022年9月，Google推出了PaLI，一個統(tǒng)一的語言圖像模型，編碼器的輸入部分使用了ViT。2023年3月Google推出有5620億參數(shù)的PaLM-E模型，將540BPaLM和ViT-22B結(jié)合。在RT-1中，模型省略了將輸出的指令轉(zhuǎn)化為動作控制信號的步驟，直接把直接把動作當(dāng)token輸出。RT-2結(jié)合了PaLI-X和PaLM-E，針對機器人和網(wǎng)絡(luò)數(shù)據(jù)共同微調(diào)預(yù)先訓(xùn)練的VLM模型。生成的模型接收機器人攝像頭圖像并直接預(yù)測機器人要執(zhí)行的動作。通過基于PaLM-E和PaLI-X的VLA的兩個實例化，RT-2帶來了高度改進(jìn)的機器人策略，更重要的是通過視覺語言的預(yù)訓(xùn)練帶來了顯著更好的泛化性能。RT-2不僅是對現(xiàn)有VLM模型的簡單而有效的修改，還展示了構(gòu)建通用物理機器人的前景，讓機器人可以推理、解決問題和解釋信息，以在現(xiàn)實中執(zhí)行各種任務(wù)。
　　多模態(tài)GPT助力機器人軟件技術(shù)進(jìn)步，加速機器人產(chǎn)業(yè)進(jìn)展。從PaLM-E到以RT-2為代表的機器人軟件模型算法不斷提升，有望加速提升通用機器人與行業(yè)機器人的迭代速度，帶動下游需求的產(chǎn)生，并實現(xiàn)包擴(kuò)軟件算法、機械組件、機器人整機等在內(nèi)的產(chǎn)業(yè)鏈共振。行業(yè)機器人的實現(xiàn)難度相對通用機器人更低，而多模態(tài)GPT的發(fā)展是通往行業(yè)機器人的鑰匙。多模態(tài)GPT助力機器人在交互能力、規(guī)劃控制能力、泛化能力、感知能力等多方面得到極大提升。我們認(rèn)為，從下半年開始的1~5年內(nèi)，隨著GPT的發(fā)展帶來AI泛化能力提升，通用視覺、通用機械臂、通用物流搬運機器人、行業(yè)服務(wù)機器人、真正的智能家居會進(jìn)入生活。在5-10年內(nèi)，結(jié)合復(fù)雜多模態(tài)方案的大模型有望具備完備的與世界交互的能力，在通用機器人、虛擬現(xiàn)實等領(lǐng)域得到應(yīng)用。
　　建議關(guān)注：1）算法及行業(yè)機器人潛力公司：大華股份、海康威視、千方科技、中科創(chuàng)達(dá)、云從科技、中科信息、億嘉和、螢石網(wǎng)絡(luò)、商湯科技等。2）硬件供應(yīng)商：三花智控、拓普集團(tuán)、鳴志電器、綠的諧波、峰岹科技、雙環(huán)傳動、中大力德、國茂股份等。
　　風(fēng)險提示：機器人技術(shù)迭代不及預(yù)期風(fēng)險；經(jīng)濟(jì)下行超預(yù)期風(fēng)險；行業(yè)競爭加劇風(fēng)險。
　　

相關(guān)行業(yè)報告

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频