>> 海通證券-信息服務(wù)行業(yè)跟蹤報告:CoDi持續(xù)迭代,多模態(tài)大模型發(fā)展得到重點關(guān)注-240123
| 上傳日期: |
2024/1/23 |
大小: |
362KB |
| 格式: |
pdf 共2頁 |
來源: |
海通證券 |
| 評級: |
優(yōu)于大市 |
作者: |
楊林 |
| 下載權(quán)限: |
此報告為加密報告,僅限高級會員查看 |
|
|
CoDi迭代升級,在多模態(tài)基礎(chǔ)模型領(lǐng)域取得重大突破。近日,加州大學(xué)伯克利分校、微軟Azure AI、Zoom、北卡羅來納大學(xué)教堂山分校等多個機構(gòu)的研究者提出了CoDi-2模型。CoDi-2建立在CoDi(Composable Diffusion)模型的基礎(chǔ)上,在開發(fā)綜合多模態(tài)基礎(chǔ)模型方面取得了重大突破。CoDi-2擅長解釋上下文語言-視覺-音頻交錯指令,并生成多模態(tài)輸出。CoDi-2能夠遵循復(fù)雜的多模態(tài)交錯指令,采用any-to-any的輸入-輸出模態(tài)范式進行上下文學(xué)習(xí)、推理、聊天、編輯等。通過在編碼和生成階段將模態(tài)與語言進行對齊,CoDi-2使大語言模型(LLM)不僅能夠理解復(fù)雜的模態(tài)交錯指令和上下文示例,還能自回歸地生成基于連續(xù)特征空間的多模態(tài)輸出。為了訓(xùn)練CoDi-2,研究者構(gòu)建了一個大規(guī)模的多模態(tài)指令數(shù)據(jù)集,涵蓋了文本、視覺和音頻。CoDi-2在多模態(tài)生成上展示了一系列的零樣本能力,如上下文學(xué)習(xí)、推理以及通過多輪交互對話實現(xiàn)的any-to-any模態(tài)生成組合。CoDi-2在多個任務(wù)上超越了以往的特定領(lǐng)域模型,例如主題驅(qū)動的圖像生成、視覺轉(zhuǎn)換和音頻編輯任務(wù)。 突破CoDi的局限,可進行多輪多模態(tài)對話。先前提出的CoDi模型雖然在多模態(tài)生成方面取得了顯著進展,但仍存在幾個關(guān)鍵挑戰(zhàn):(1)零樣本的細粒度和復(fù)雜用戶控制的多模態(tài)生成并不可行:在不對子任務(wù)進行微調(diào)的情況下(例如通過“類比”設(shè)置或以主題為驅(qū)動的生成復(fù)制或轉(zhuǎn)移編輯效果),當前的多模態(tài)生成模型(MGM)無法生成復(fù)雜的上下文生成示例。此外,MGM的推理能力較有限,例如,輸入提示通常是描述性的,不需要邏輯、組合和分析智能等能力來生成。(2)用戶與模型的交互通常被限制在單輪交互,或者在多輪指令下模型難以確??巛嗧憫?yīng)的一致性和忠實性。(3)先前的MGM輸入大多只包含一兩種模態(tài)。理解模態(tài)交織輸入的能力對于構(gòu)建基礎(chǔ)多模態(tài)模型至關(guān)重要,比如將語言指令與上下文視覺和聽覺輸入混合。因此,迫切需要一種多功能的“任意模態(tài)-任意模態(tài)”MGM,能夠遵循交織的上下文多模態(tài)指令并進行多輪互動聊天。為此,研究者提出了CoDi-2,一種多功能的多模態(tài)大語言模型(MLLM),它可以進行“任意模態(tài)-任意模態(tài)”的生成,遵循上下文和模態(tài)交錯指令,以及進行多輪多模態(tài)對話,以完成編輯、推理和組合等任務(wù)。 CoDi-2以MLLM為基礎(chǔ)引擎,處理多模態(tài)上下文輸入。模型架構(gòu)方面,CoDi-2在設(shè)計上旨在處理上下文多模態(tài)輸入,包括文本、圖像和音頻,利用特定指令來促進上下文學(xué)習(xí)并生成相應(yīng)的文本、圖像或音頻輸出。研究者提出,該模型因兩個關(guān)鍵特性而區(qū)別于其它:(1)將MLLM作為基礎(chǔ)引擎。構(gòu)建一個能夠處理模態(tài)交織輸入、理解和推理復(fù)雜指令(例如多輪對話、上下文示例)并與多模態(tài)擴散器互動的“任意模態(tài)-任意模態(tài)”基礎(chǔ)模型,需要一個強大的基礎(chǔ)“引擎”。為此,研究者通過賦予僅文本的LLM多模態(tài)感知能力構(gòu)建了MLLM,并將其作為引擎。LLM在僅語言領(lǐng)域表現(xiàn)出色,如聊天、零樣本學(xué)習(xí)、遵循指令等方面,再通過利用來自對齊的多模態(tài)編碼器的投影,可以無縫賦予LLM感知模態(tài)交織輸入序列的能力。(2)基于MLLM的多模態(tài)生成。MLLM可以自回歸生成文本標記以生成文本;對于多模態(tài)生成,先前常見的一種方法是將多模態(tài)目標(例如,真實圖像)轉(zhuǎn)換為離散標記,使其可以類似文本自回歸生成。然而,此方法的生成質(zhì)量本質(zhì)上受到類似VAE的生成解碼器的限制,而當前的SOTA多模態(tài)生成框架通常采用擴散模型(DMs)。因此,研究者提出將DMs整合到MLLM中,遵循精細的模態(tài)交織指令和提示以生成多模態(tài)輸出。我們認為,CoDi這類多模態(tài)大模型的不斷迭代,背后代表的是學(xué)術(shù)界與產(chǎn)業(yè)界對于多模態(tài)大模型的重點關(guān)注,未來多模態(tài)大模型的商業(yè)應(yīng)用也有望持續(xù)加速。 風險提示:AI技術(shù)發(fā)展不及預(yù)期,AI商業(yè)落地不及預(yù)期。
|
|