久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频

研報下載就選股票報告網(wǎng)
您好,歡迎來到股票分析報告網(wǎng)!登錄   忘記密碼   注冊
>> 國盛證券-計算機行業(yè)點評:RT-2,從VLM到VLA,機器人軟件體系再次進(jìn)步-230802
上傳日期:   2023/8/2 大小:   1173KB
格式:   pdf  共13頁 來源:   國盛證券
評級:   增持 作者:   劉高暢
行業(yè)名稱:   計算機
下載權(quán)限:   無限制-登錄即可下載
RT-2面世,VLA模型將視覺-語言轉(zhuǎn)化為機器人動作。近期Google DeepMind發(fā)布Robotic Transformer 2(RT-2),是一種新穎的視覺-語言-動作(VLA)模型。RT-2建立在Robotic Transformer 1(RT-1)的基礎(chǔ)上,這是一個經(jīng)過多任務(wù)演示訓(xùn)練的模型,它可以學(xué)習(xí)機器人數(shù)據(jù)中看到的任務(wù)和對象的組合。RT-2以視覺語言模型(VLM)為基礎(chǔ),VLM已接受網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的訓(xùn)練,以執(zhí)行視覺問答、圖像字幕或?qū)ο笞R別等任務(wù),RT-2采用PaLI-X和PaLM-E作為支柱,將一個或多個圖像作為輸入,并生成一系列通常代表自然語言文本的標(biāo)記。RT-2通過將機器人動作表示為模型輸出中的token(類似于語言token)來制機器人,并將操作描述為可以由標(biāo)準(zhǔn)自然語言標(biāo)記生成器處理的字符串。與之前的基線(例如之前的RT-1模型和VC-1等模型)相比,RT-2的泛化性能大幅提高。Google DeepMind對機器人沒看見過的物體、背景和環(huán)境進(jìn)行不同程度的評估,這需要機器人從VLM預(yù)訓(xùn)練中學(xué)習(xí)泛化,RT-2保留了機器人數(shù)據(jù)中看到的原始任務(wù)的性能,并提高了機器人在以前看不見的場景中的性能,從RT-1的32%提高到62%,顯示了大規(guī)模預(yù)訓(xùn)練的巨大優(yōu)勢。受到大語言模型中使用的思維鏈提示方法的啟發(fā),Google DeepMind還將機器人控制與思維鏈推理相結(jié)合,以便能夠在單個模型中學(xué)習(xí)長期規(guī)劃和低級技能。
  從VLM到VLA,RT-2進(jìn)一步驗證了“ViT+類GPT+機械”的機器人方案。從VLM到VLA,主要進(jìn)展在于將機器人動作直接作為模型token輸出,省去了VLM模型將輸出的指令翻譯成動作控制信號的步驟。ViT模型將語言模型的transformer架構(gòu)用于視覺模型,代替了傳統(tǒng)的CNN,統(tǒng)一了CV和NLP的架構(gòu)。2022年9月,Google推出了PaLI,一個統(tǒng)一的語言圖像模型,編碼器的輸入部分使用了ViT。2023年3月Google推出有5620億參數(shù)的PaLM-E模型,將540BPaLM和ViT-22B結(jié)合。在RT-1中,模型省略了將輸出的指令轉(zhuǎn)化為動作控制信號的步驟,直接把直接把動作當(dāng)token輸出。RT-2結(jié)合了PaLI-X和PaLM-E,針對機器人和網(wǎng)絡(luò)數(shù)據(jù)共同微調(diào)預(yù)先訓(xùn)練的VLM模型。生成的模型接收機器人攝像頭圖像并直接預(yù)測機器人要執(zhí)行的動作。通過基于PaLM-E和PaLI-X的VLA的兩個實例化,RT-2帶來了高度改進(jìn)的機器人策略,更重要的是通過視覺語言的預(yù)訓(xùn)練帶來了顯著更好的泛化性能。RT-2不僅是對現(xiàn)有VLM模型的簡單而有效的修改,還展示了構(gòu)建通用物理機器人的前景,讓機器人可以推理、解決問題和解釋信息,以在現(xiàn)實中執(zhí)行各種任務(wù)。
  多模態(tài)GPT助力機器人軟件技術(shù)進(jìn)步,加速機器人產(chǎn)業(yè)進(jìn)展。從PaLM-E到以RT-2為代表的機器人軟件模型算法不斷提升,有望加速提升通用機器人與行業(yè)機器人的迭代速度,帶動下游需求的產(chǎn)生,并實現(xiàn)包擴(kuò)軟件算法、機械組件、機器人整機等在內(nèi)的產(chǎn)業(yè)鏈共振。行業(yè)機器人的實現(xiàn)難度相對通用機器人更低,而多模態(tài)GPT的發(fā)展是通往行業(yè)機器人的鑰匙。多模態(tài)GPT助力機器人在交互能力、規(guī)劃控制能力、泛化能力、感知能力等多方面得到極大提升。我們認(rèn)為,從下半年開始的1~5年內(nèi),隨著GPT的發(fā)展帶來AI泛化能力提升,通用視覺、通用機械臂、通用物流搬運機器人、行業(yè)服務(wù)機器人、真正的智能家居會進(jìn)入生活。在5-10年內(nèi),結(jié)合復(fù)雜多模態(tài)方案的大模型有望具備完備的與世界交互的能力,在通用機器人、虛擬現(xiàn)實等領(lǐng)域得到應(yīng)用。
  建議關(guān)注:1)算法及行業(yè)機器人潛力公司:大華股份、海康威視、千方科技、中科創(chuàng)達(dá)、云從科技、中科信息、億嘉和、螢石網(wǎng)絡(luò)、商湯科技等。2)硬件供應(yīng)商:三花智控、拓普集團(tuán)、鳴志電器、綠的諧波、峰岹科技、雙環(huán)傳動、中大力德、國茂股份等。
  風(fēng)險提示:機器人技術(shù)迭代不及預(yù)期風(fēng)險;經(jīng)濟(jì)下行超預(yù)期風(fēng)險;行業(yè)競爭加劇風(fēng)險。
  
 
Copyright ? 2005 - 2021 Nxny.com All Rights Reserved 備案號:蜀ICP備15031742號-1