>> 國泰君安-產(chǎn)業(yè)研究:人形機(jī)器人產(chǎn)業(yè)熱點(diǎn),端到端架構(gòu)-240307
| 上傳日期: |
2024/3/8 |
大?。?/td>
| 798KB |
| 格式: |
pdf 共2頁 |
來源: |
國泰君安 |
| 評級: |
-- |
作者: |
鮑雁辛,肖群稀 |
| 下載權(quán)限: |
此報告為加密報告,僅限高級會員查看 |
|
|
彭博社報道:微軟、OpenAI、英偉達(dá)、亞馬遜、英特爾、三星、LG等科技巨頭投資了人形機(jī)器人初創(chuàng)企業(yè)Figure AI,本輪融資約6.75億美元,投后估值超過26億美元。為什么Figure AI的估值高達(dá)26億美元?機(jī)器人是AI落地的重要場景,F(xiàn)igure AI的優(yōu)勢不僅在硬件技術(shù)上,更體現(xiàn)在AI能力上。 Figure AI的人形機(jī)器人Figure 01采用端到端的AI系統(tǒng),特斯拉Optimus基于FSD控制系統(tǒng)和Dojo算力也可以實現(xiàn)端到端。24年1月,F(xiàn)igure AI發(fā)布了Figure 01通過10小時學(xué)習(xí)學(xué)會煮咖啡的視頻,如果咖啡膠囊沒放正,他還可以自主調(diào)整,無需人為遙控,這意味著只要獲得某個應(yīng)用的人類數(shù)據(jù)(如煮咖啡、疊衣服、倉庫工作等),就可以在Figure 01的基礎(chǔ)上對AI系統(tǒng)進(jìn)行端到端的訓(xùn)練。2023年9月25日特斯拉展示了Optimus自動分類不同顏色的積木的視頻,它同樣具備自主糾正能力,積木倒了,可以自主拿起來再擺正。Optimus這套基于神經(jīng)網(wǎng)絡(luò)的AI系統(tǒng)來自于AI自動駕駛系統(tǒng)FSDBeta V12,可以實現(xiàn)輸入圖像,輸出轉(zhuǎn)向、剎車、加速等車輛控制信號的能力。 端到端架構(gòu)的優(yōu)勢:可以克服傳統(tǒng)方式依賴先驗環(huán)境建模的問題,直接實現(xiàn)通過從感知到控制功能的映射。傳統(tǒng)的AI/機(jī)器人的決策邏輯是輸入(視頻/圖片/文本)→判斷→輸出(決策),每個子系統(tǒng)之間常常會有部分Rule-based的后處理流程。端到端是輸入(視頻/圖片/文本)→模型(神經(jīng)網(wǎng)絡(luò))→輸出(決策):通過篩選輸入,把“大師級”的能力賦予模型(神經(jīng)網(wǎng)絡(luò)),模型在某些場景下就具備了“大師級”。端到端的優(yōu)勢是全流程可微,系統(tǒng)變得相當(dāng)簡潔,效率大幅提升,減少了很多后處理模塊例如傳感器后融合的的維護(hù)成本,還能避免編寫大量規(guī)則引入的人為偏見。理想情況下,可以去采集類似的數(shù)據(jù)加入訓(xùn)練集來解決泛化問題。 端到端架構(gòu)存在的關(guān)鍵問題:1)端到端深度神經(jīng)網(wǎng)絡(luò)模型是個黑盒子,出了差錯,也不知道它為什么出差錯,哪里出了問題,該如何避免。只能通過不斷訓(xùn)練、調(diào)參、增加參數(shù)量,盡可能提高模型的準(zhǔn)確率;2)閉環(huán)訓(xùn)練不充分:AI沒有完成控制,那就沒有完成閉環(huán),在NLP+CV+世界模型突破的情況下,如果AI找到了很好的控制訓(xùn)練方法,機(jī)器人領(lǐng)域才能突破奇點(diǎn)。傳統(tǒng)的感知模型訓(xùn)練時,需要的是經(jīng)過標(biāo)注的圖片和視頻,比較容易獲得。端到端的神經(jīng)網(wǎng)絡(luò)模型需要學(xué)習(xí)的是智能體的行為,需要大量標(biāo)注有智能體行為的數(shù)據(jù)才能進(jìn)行訓(xùn)練,素材采集和標(biāo)注都很困難。特斯拉23Q2財報電話會議上,馬斯克介紹了端到端FSD的訓(xùn)練規(guī)模:“特斯拉花了約一個季度完成了1000萬個視頻片段的訓(xùn)練,勉強(qiáng)可以工作;200萬個,稍好一些;1000萬個,它的表現(xiàn)就變得難以置信?!?br> 端到端的實現(xiàn)需要海量數(shù)據(jù)和強(qiáng)大的算力做支撐,Sora覆蓋了傳感器仿真和交通流仿真兩個任務(wù),能夠大幅提升數(shù)據(jù)生產(chǎn)效率。1)海量數(shù)據(jù)(可以是圖形/文字/視頻/語音)需要涵蓋在應(yīng)用場景中可能會發(fā)生的所有情形(例如咖啡膠囊放歪了,積木倒了),這樣才能讓機(jī)器人在遇到相似的情況下不需要依靠程序規(guī)則,直接模仿已有的相似的視頻做出決策。Sora的視頻編輯和操縱功能,可以作為自動駕駛系統(tǒng)中的場景重構(gòu)和仿真工具,也能為機(jī)器人生成多樣化的訓(xùn)練場景,減輕現(xiàn)實世界數(shù)據(jù)稀缺所帶來的限制,使機(jī)器人能夠與環(huán)境互動,理解任務(wù)并以前所未有的復(fù)雜性和精確度執(zhí)行任務(wù)。2)強(qiáng)大的算力是支撐運(yùn)行海量數(shù)據(jù)的基礎(chǔ)設(shè)施。TESLA在其官網(wǎng)平臺TESLAAI上預(yù)計:2024年10月特斯拉的算力將達(dá)到100ExaFlods,相當(dāng)于30萬塊英偉達(dá)A100顯卡的算力總和。 風(fēng)險提示:1)新技術(shù)出現(xiàn);2)投資過度。
|
|