>> 國盛證券-計算機行業(yè)下半年的超級場景一:多模態(tài)GPT-230503
| 上傳日期: |
2023/5/3 |
大小: |
1641KB |
| 格式: |
pdf 共17頁 |
來源: |
國盛證券 |
| 評級: |
增持 |
作者: |
劉高暢 |
| 行業(yè)名稱: |
計算機 |
| 下載權限: |
無限制-登錄即可下載 |
|
|
騰訊推出自研機器人靈巧手TRX-Hand和機械臂TRX-Arm,靈活程度堪比人手。4月25日,騰訊Robotics X實驗室發(fā)布最新機器人研究進展,展示實驗室在靈巧操作領域的成果,推出自研機器人靈巧手“TRX-Hand”和機械臂“TRX-Arm”。軟硬件一體靈巧手TRX-Hand擁有像人手一樣靈活的操作能力,可適應不同場景,靈活規(guī)劃動作,自主完成“操作”。高性能七自由度擬人機械臂TRX-Arm具有運動靈巧、爆發(fā)力強、觸控一體以及柔順安全等特點。RoboticsX實驗室計劃繼續(xù)推動TRX-Hand和TRX-Arm的融合,并引入深度學習等前沿算法,提升機器人的靈巧操作能力和解決復雜問題的能力,讓其更好的服務現(xiàn)實需求。 GPT-4進入視覺場景,已能實時分析視頻信息。2023年3月17日發(fā)布的GPT-4支持多模態(tài),能給定由穿插文本和圖像的輸入,GPT-4生成文本輸出。近日已經(jīng)有開發(fā)人員將GPT-4與目標檢測網(wǎng)絡結合,實時捕獲攝像頭中的物體進行分析并執(zhí)行人類指令。演示中開發(fā)人員使用一個預訓練的Yolov8視覺模型來實時捕獲攝像頭中的物體信息,結合聯(lián)網(wǎng)的GPT-4,可以讓GPT執(zhí)行與攝像頭中物體相關的人類指令。比如GPT-4能識別出攝像頭中開發(fā)人員手里的牙刷,然后還能按要求在網(wǎng)上找到牙刷的購買鏈接。 VIT+GPT,多模態(tài)GPT典型范式已明朗,AI進步助力行業(yè)機器人加速落地。ViT是可行性得到了充分驗證的處理視覺等模態(tài)信息的典型技術。2020年,谷歌推出Vision Transformer(ViT)模型,不使用CNN,直接將Transformer編碼器用于視覺模型。2023年谷歌又推出了220億參數(shù)的ViT-22b,并用于PaLM-E模型中,可以用于機器人規(guī)劃操作,完成指令。微軟的KOSMOS-1模型結合VIT和LLM理解圖像和上下文,Meta的SAM分割圖像模型也使用VIT進行圖像編碼。多模態(tài)GPT能極大助力機器人產(chǎn)業(yè)的發(fā)展,首先可以幫助機器人更好地理解人類指令;還能提升機器人綜合處理現(xiàn)實世界的不同模態(tài)信號的能力;最后多模態(tài)GPT帶來泛化能力提升,讓機器人的通用性變高,有望實現(xiàn)行業(yè)內(nèi)通用智能。 未來已來:從多行為分析、人機交互到通用機器人。當前多模態(tài)的輸入輸出主要是文本、圖像和音頻,應用場景包括智能辦公和虛擬世界交互。從下半年開始的5年內(nèi),隨著GPT的發(fā)展帶來AI泛化能力提升,通用視覺、通用機械臂、通用物流搬運機器人、行業(yè)服務機器人、真正的智能家居會進入生活,目前阿里已在實驗將通義千問大模型應用到工業(yè)機器人。未來5~10年,結合復雜多模態(tài)方案的大模型有望具備完備的與世界交互的能力,在通用機器人、虛擬現(xiàn)實等領域得到應用。 建議關注: 算法&行業(yè)機器人潛力:大華股份、海康威視、千方科技、中科信息、云從科技、億嘉和、螢石網(wǎng)絡、商湯科技、中科創(chuàng)達等。 硬件供應商:三花智控、拓普集團、鳴志電器、綠的諧波等。 相關多模態(tài)處理:萬興科技、當虹科技、星環(huán)科技等。 風險提示:AI技術迭代不及預期風險;經(jīng)濟下行超預期風險;行業(yè)競爭加劇風險。
|
|