>> 廣發(fā)證券-機(jī)械設(shè)備行業(yè)人形機(jī)器人系列之八:人形機(jī)器人究竟需要怎樣的AI模型?-230924
| 上傳日期: |
2023/9/25 |
大?。?/td>
| 2885KB |
| 格式: |
pdf 共33頁 |
來源: |
廣發(fā)證券 |
| 評級: |
領(lǐng)先大市-A |
作者: |
代川,孫柏陽 |
| 行業(yè)名稱: |
機(jī)械 |
| 下載權(quán)限: |
此報告為加密報告,僅限高級會員查看 |
|
|
實現(xiàn)任務(wù)級交互將成為解決人形機(jī)器人通用化難題的關(guān)鍵。當(dāng)前人形機(jī)器人行業(yè)面臨著高需求、低滲透率、商業(yè)化落地難的發(fā)展瓶頸,其核心原因在于機(jī)器人通用化水平不達(dá)預(yù)期。按照機(jī)器人控制層級的劃分,通用化能力的提升需要機(jī)器人能夠擁有高層級的自主規(guī)劃能力。因此,如何讓人形機(jī)器人獨立完成高層級規(guī)劃,實現(xiàn)任務(wù)級交互,將成為決定人形機(jī)器人能否實現(xiàn)商業(yè)化落地的關(guān)鍵。 多模態(tài)大模型的發(fā)展為實現(xiàn)人形機(jī)器人任務(wù)級交互帶來曙光。大語言模型在常識理解、任務(wù)拆分、邏輯推理、自然語言交流方面的能力已經(jīng)為人形機(jī)器人帶來了出色的人機(jī)交互能力。不僅如此,隨著科技巨頭的入局,融合了視覺、語言等多模態(tài)數(shù)據(jù)的大模型正不斷涌現(xiàn),兩條技術(shù)路線下均有成果產(chǎn)出,有望進(jìn)一步提高人形機(jī)器人的通用化水平。 大模型賦能機(jī)器人感知模塊,進(jìn)一步加速下游應(yīng)用領(lǐng)域突破。大模型不僅為人形機(jī)器人帶來決策能力的提高,在感知模塊也正引領(lǐng)機(jī)器視覺訓(xùn)練新范式。Meta發(fā)布的SAM模型首次將大模型引入機(jī)器視覺領(lǐng)域,依靠AI算法自動實現(xiàn)圖像/視頻標(biāo)注,大大降低了上游訓(xùn)練成本和難度,有望加速機(jī)器視覺在下游機(jī)器人應(yīng)用領(lǐng)域的突破。 實時性問題是大模型的主要難點,運控問題上基礎(chǔ)模型更有優(yōu)勢。雖然大模型在高層級規(guī)劃問題上展現(xiàn)出了杰出的性能,但其依舊存在實時性差等局限,不適用于底層精細(xì)的運動控制;在此領(lǐng)域,參數(shù)量更少、響應(yīng)速度更快的基礎(chǔ)模型具有相對優(yōu)勢。 大模型or基礎(chǔ)模型,人形機(jī)器人究竟需要怎樣的模型?短期來看,人形機(jī)器人需要的是可以優(yōu)化特定場景應(yīng)用的基礎(chǔ)模型+大模型,兩者各司其職、相互補充;長期來看,隨著算力提升和模型結(jié)構(gòu)持續(xù)優(yōu)化,新一代高效率大模型的出現(xiàn)和應(yīng)用才能真正實現(xiàn)人形機(jī)器人通用化。 風(fēng)險提示。技術(shù)迭代速度不及預(yù)期、安全隱私法規(guī)影響、道德風(fēng)險。
|
|