好看的课外书,完美世界txt全集下载

>> 海通證券-信息服務(wù)行業(yè)跟蹤報告：CoDi持續(xù)迭代，多模態(tài)大模型發(fā)展得到重點關(guān)注-240123

上傳日期：	2024/1/23	大小：	362KB
格式：	pdf 共2頁	來源：	海通證券
評級：	優(yōu)于大市	作者：	楊林
下載權(quán)限：	此報告為加密報告，僅限高級會員查看

CoDi迭代升級，在多模態(tài)基礎(chǔ)模型領(lǐng)域取得重大突破。近日，加州大學(xué)伯克利分校、微軟Azure AI、Zoom、北卡羅來納大學(xué)教堂山分校等多個機構(gòu)的研究者提出了CoDi-2模型。CoDi-2建立在CoDi（Composable Diffusion）模型的基礎(chǔ)上，在開發(fā)綜合多模態(tài)基礎(chǔ)模型方面取得了重大突破。CoDi-2擅長解釋上下文語言-視覺-音頻交錯指令，并生成多模態(tài)輸出。CoDi-2能夠遵循復(fù)雜的多模態(tài)交錯指令，采用any-to-any的輸入-輸出模態(tài)范式進行上下文學(xué)習(xí)、推理、聊天、編輯等。通過在編碼和生成階段將模態(tài)與語言進行對齊，CoDi-2使大語言模型（LLM）不僅能夠理解復(fù)雜的模態(tài)交錯指令和上下文示例，還能自回歸地生成基于連續(xù)特征空間的多模態(tài)輸出。為了訓(xùn)練CoDi-2，研究者構(gòu)建了一個大規(guī)模的多模態(tài)指令數(shù)據(jù)集，涵蓋了文本、視覺和音頻。CoDi-2在多模態(tài)生成上展示了一系列的零樣本能力，如上下文學(xué)習(xí)、推理以及通過多輪交互對話實現(xiàn)的any-to-any模態(tài)生成組合。CoDi-2在多個任務(wù)上超越了以往的特定領(lǐng)域模型，例如主題驅(qū)動的圖像生成、視覺轉(zhuǎn)換和音頻編輯任務(wù)。
　　突破CoDi的局限，可進行多輪多模態(tài)對話。先前提出的CoDi模型雖然在多模態(tài)生成方面取得了顯著進展，但仍存在幾個關(guān)鍵挑戰(zhàn)：（1）零樣本的細粒度和復(fù)雜用戶控制的多模態(tài)生成并不可行：在不對子任務(wù)進行微調(diào)的情況下（例如通過“類比”設(shè)置或以主題為驅(qū)動的生成復(fù)制或轉(zhuǎn)移編輯效果），當前的多模態(tài)生成模型（MGM）無法生成復(fù)雜的上下文生成示例。此外，MGM的推理能力較有限，例如，輸入提示通常是描述性的，不需要邏輯、組合和分析智能等能力來生成。（2）用戶與模型的交互通常被限制在單輪交互，或者在多輪指令下模型難以確?？巛嗧憫?yīng)的一致性和忠實性。（3）先前的MGM輸入大多只包含一兩種模態(tài)。理解模態(tài)交織輸入的能力對于構(gòu)建基礎(chǔ)多模態(tài)模型至關(guān)重要，比如將語言指令與上下文視覺和聽覺輸入混合。因此，迫切需要一種多功能的“任意模態(tài)-任意模態(tài)”MGM，能夠遵循交織的上下文多模態(tài)指令并進行多輪互動聊天。為此，研究者提出了CoDi-2，一種多功能的多模態(tài)大語言模型（MLLM），它可以進行“任意模態(tài)-任意模態(tài)”的生成，遵循上下文和模態(tài)交錯指令，以及進行多輪多模態(tài)對話，以完成編輯、推理和組合等任務(wù)。
　　CoDi-2以MLLM為基礎(chǔ)引擎，處理多模態(tài)上下文輸入。模型架構(gòu)方面，CoDi-2在設(shè)計上旨在處理上下文多模態(tài)輸入，包括文本、圖像和音頻，利用特定指令來促進上下文學(xué)習(xí)并生成相應(yīng)的文本、圖像或音頻輸出。研究者提出，該模型因兩個關(guān)鍵特性而區(qū)別于其它：（1）將MLLM作為基礎(chǔ)引擎。構(gòu)建一個能夠處理模態(tài)交織輸入、理解和推理復(fù)雜指令（例如多輪對話、上下文示例）并與多模態(tài)擴散器互動的“任意模態(tài)-任意模態(tài)”基礎(chǔ)模型，需要一個強大的基礎(chǔ)“引擎”。為此，研究者通過賦予僅文本的LLM多模態(tài)感知能力構(gòu)建了MLLM，并將其作為引擎。LLM在僅語言領(lǐng)域表現(xiàn)出色，如聊天、零樣本學(xué)習(xí)、遵循指令等方面，再通過利用來自對齊的多模態(tài)編碼器的投影，可以無縫賦予LLM感知模態(tài)交織輸入序列的能力。（2）基于MLLM的多模態(tài)生成。MLLM可以自回歸生成文本標記以生成文本；對于多模態(tài)生成，先前常見的一種方法是將多模態(tài)目標（例如，真實圖像）轉(zhuǎn)換為離散標記，使其可以類似文本自回歸生成。然而，此方法的生成質(zhì)量本質(zhì)上受到類似VAE的生成解碼器的限制，而當前的SOTA多模態(tài)生成框架通常采用擴散模型（DMs）。因此，研究者提出將DMs整合到MLLM中，遵循精細的模態(tài)交織指令和提示以生成多模態(tài)輸出。我們認為，CoDi這類多模態(tài)大模型的不斷迭代，背后代表的是學(xué)術(shù)界與產(chǎn)業(yè)界對于多模態(tài)大模型的重點關(guān)注，未來多模態(tài)大模型的商業(yè)應(yīng)用也有望持續(xù)加速。
　　風險提示：AI技術(shù)發(fā)展不及預(yù)期，AI商業(yè)落地不及預(yù)期。
　　
　　

相關(guān)研報

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频