久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频

研報下載就選股票報告網(wǎng)
您好,歡迎來到股票分析報告網(wǎng)!登錄   忘記密碼   注冊
>> 海通證券-信息服務(wù)行業(yè)跟蹤報告:艾倫人工智能研究所發(fā)布Unified-IO 2,多模態(tài)AI大模型持續(xù)發(fā)展-240115
上傳日期:   2024/1/15 大?。?/td>   381KB
格式:   pdf  共2頁 來源:   海通證券
評級:   優(yōu)于大市 作者:   楊林,楊蒙
下載權(quán)限:   此報告為加密報告,僅限高級會員查看
艾倫人工智能研究所發(fā)布AI模型Unified-IO 2,能夠完成多種多模態(tài)任務(wù)。Unified-IO 2是第一個能夠理解和生成圖像、文本、音頻和動作的自回歸多模態(tài)模型。它可以生成圖像,包括圖像編輯、圖像生成、深度估計、表面法線估計和未來幀預(yù)測等;可以生成文本,包含查詢的長格式答案、關(guān)鍵點估計、視覺音頻定位、機器人操作的預(yù)測動作等;可以從圖像或文本中生成音頻。為了統(tǒng)一不同的模態(tài),研究人員將輸入和輸出(圖像、文本、音頻、動作、邊界框等)標(biāo)記到一個共享的語義空間中,然后使用單個編碼器-解碼器轉(zhuǎn)換器模型對其進(jìn)行處理。Unified-IO 2包含70億個參數(shù),并在各種多模態(tài)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,包括10億個圖像-文本對、1萬億個文本標(biāo)記、1.8億個視頻剪輯、1.3億個交錯圖像和文本、300萬個3D資產(chǎn)和100萬個機器人代理運動序列。研究團(tuán)隊通過組合120多個數(shù)據(jù)集,涵蓋220個視覺、語言、音頻和動作任務(wù),進(jìn)一步使用大規(guī)模的多模態(tài)語料庫對模型進(jìn)行指導(dǎo)調(diào)整。為了有效地促進(jìn)跨多種模態(tài)的自監(jiān)督學(xué)習(xí)信號,研究人員開發(fā)了一種新型的去噪器目標(biāo)的多模態(tài)混合,結(jié)合了跨模態(tài)的去噪和生成。研究人員還開發(fā)了動態(tài)打包,可將訓(xùn)練吞吐量提高4倍,以處理高度可變的序列。為了克服訓(xùn)練中的穩(wěn)定性和可擴展性問題,研究人員在感知器重采樣器上做了架構(gòu)更改,包括2D旋轉(zhuǎn)嵌入、QK歸一化和縮放余弦注意力機制。對于指令調(diào)整,研究人員確保每個任務(wù)都有一個明確的提示,無論是使用現(xiàn)有任務(wù)還是制作新任務(wù),另外還包括開放式任務(wù),并為不太常見的模式創(chuàng)建合成任務(wù),以增強任務(wù)和教學(xué)的多樣性。
  Unified-IO 2采用編碼器-解碼器架構(gòu),模型訓(xùn)練架構(gòu)創(chuàng)新。統(tǒng)一任務(wù)表示方面,Unified-IO 2使用單個統(tǒng)一的編碼器-解碼器轉(zhuǎn)換器處理所有模態(tài)。例如,文本輸入和輸出使用LLaMA中的字節(jié)對編碼進(jìn)行標(biāo)記化,邊界框、關(guān)鍵點和相機姿勢等稀疏結(jié)構(gòu)被離散化,然后使用添加到詞匯表中的1000個特殊標(biāo)記進(jìn)行編碼。圖像使用預(yù)先訓(xùn)練的視覺轉(zhuǎn)換器(ViT)進(jìn)行編碼,生成圖像時,使用VQ-GAN將圖像轉(zhuǎn)換為離散標(biāo)記。音頻編碼為頻譜圖,然后使用預(yù)先訓(xùn)練的音頻頻譜圖轉(zhuǎn)換器(AST)對頻譜圖進(jìn)行編碼。穩(wěn)定訓(xùn)練的模型架構(gòu)和技術(shù)方面,研究人員觀察到,隨著其他模式集成,使用U-IO之后的標(biāo)準(zhǔn)實現(xiàn)會導(dǎo)致訓(xùn)練越來越不穩(wěn)定。為了解決這個問題,研究人員進(jìn)行了各種架構(gòu)更改,如在每個Transformer層應(yīng)用旋轉(zhuǎn)位置嵌入(RoPE)。效率優(yōu)化方面,對大量多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練,會導(dǎo)致轉(zhuǎn)換器輸入和輸出的序列長度高度可變。研究人員使用打包來解決這個問題,多個示例的標(biāo)記被打包到一個序列中,并屏蔽注意力以防止轉(zhuǎn)換器在示例之間交叉參與。在訓(xùn)練過程中,使用啟發(fā)式算法來重新排列流式傳輸?shù)侥P偷臄?shù)據(jù),以便將長樣本與可以打包的短樣本相匹配。指令調(diào)優(yōu)方面,多模態(tài)指令調(diào)優(yōu)是使模型具備各種模態(tài)的不同技能和能力,甚至適應(yīng)新的和獨特的指令的關(guān)鍵過程。研究人員通過結(jié)合廣泛的監(jiān)督數(shù)據(jù)集和任務(wù)來構(gòu)建多模態(tài)指令調(diào)優(yōu)數(shù)據(jù)集。指令調(diào)優(yōu)組合包括60%的提示數(shù)據(jù)、30%從預(yù)訓(xùn)練中繼承下來的數(shù)據(jù)(為了避免災(zāi)難性的遺忘)、6%使用現(xiàn)有數(shù)據(jù)源構(gòu)建的任務(wù)增強數(shù)據(jù)、以及4%自由格式文本(以實現(xiàn)類似聊天的回復(fù))。
  Unified-IO 2在眾多基準(zhǔn)測試中表現(xiàn)良好,多模態(tài)AI有望加速落地。Unified-IO 2在超過35個基準(zhǔn)測試中表現(xiàn)良好,包括圖像生成和理解、自然語言理解、視頻和音頻理解以及機器人操作;在GRIT評估中創(chuàng)下了新的基準(zhǔn),其中包括關(guān)鍵點估計和表面法線估計等多種任務(wù);在視覺和語言任務(wù)中,它與許多最近提出的視覺語言模型相匹敵甚至表現(xiàn)更好;在圖像生成方面,它優(yōu)于利用預(yù)先訓(xùn)練的穩(wěn)定擴散模型的最接近的競爭對手,尤其是在忠誠度方面。它還顯示了在視頻、自然語言、音頻和嵌入式人工智能任務(wù)方面的有效性。此外,Unified-IO 2可以遵循自由形式的指令,包括新穎的指令。我們認(rèn)為,Unified-IO2的發(fā)布是人工智能處理和整合多模態(tài)數(shù)據(jù)方面的顯著進(jìn)步,未來AI賦能多業(yè)態(tài)應(yīng)用或?qū)⒓铀俾涞亍?br>  建議關(guān)注:??低?、金山辦公、新國都、大華股份、福昕軟件、萬興科技。
  風(fēng)險提示:AI技術(shù)發(fā)展不及預(yù)期,AI商業(yè)落地不及預(yù)期。
  
 
Copyright ? 2005 - 2021 Nxny.com All Rights Reserved 備案號:蜀ICP備15031742號-1

平山县| 高邑县| 土默特右旗| 钟祥市| 五常市| 苍南县| 万荣县| 永善县| 迁安市| 罗定市| 岳池县| 修文县| 潼关县| 永仁县| 云霄县| 东兴市| 资兴市| 莱芜市| 视频| 新郑市| 隆尧县| 六盘水市| 墨竹工卡县| 深水埗区| 沽源县| 民和| 客服| 嵊泗县| 金平| 安陆市| 车险| 永安市| 通州区| 格尔木市| 木兰县| 玉山县| 准格尔旗| 黄骅市| 彭泽县| 措美县| 永城市|