武道至尊帝临小说,国际完美世界下载,辰东完美世界有声小说

>> 海通證券-信息服務(wù)行業(yè)跟蹤報(bào)告：圖轉(zhuǎn)視頻技術(shù)不斷革新，AI應(yīng)用場(chǎng)景愈發(fā)寬廣-240114

上傳日期：	2024/1/14	大?。?/td>	382KB
格式：	pdf 共2頁	來源：	海通證券
評(píng)級(jí)：	優(yōu)于大市	作者：	楊林
下載權(quán)限：	此報(bào)告為加密報(bào)告，僅限高級(jí)會(huì)員查看

阿里巴巴提出Animate Anybody方法，效果優(yōu)于現(xiàn)行圖像轉(zhuǎn)視頻方法。角色動(dòng)畫（Character Animation）是將源角色圖像按照所需的姿態(tài)序列動(dòng)畫化為逼真視頻的任務(wù)，具有許多潛在的應(yīng)用，例如在線零售、娛樂視頻、藝術(shù)創(chuàng)作和虛擬角色等。從GAN開始，研究者一直在不斷深入了解將圖像進(jìn)行動(dòng)畫化以及進(jìn)行姿態(tài)遷移的探索，然而，生成的圖像或視頻仍然存在局部失真、細(xì)節(jié)模糊、語義不一致和時(shí)間不穩(wěn)定等問題，從而阻礙了這些方法的應(yīng)用。近日，阿里巴巴的研究團(tuán)隊(duì)提出了一種名為Animate Anybody的方法，能夠?qū)⒔巧珗D像轉(zhuǎn)換為動(dòng)畫視頻，而形成的視頻遵循所要求的姿態(tài)序列。該研究繼承了StableDiffusion的網(wǎng)絡(luò)設(shè)計(jì)和預(yù)訓(xùn)練權(quán)重，并修改了去噪U(xiǎn)Net以適應(yīng)多幀輸入。目前，許多研究都提出了基于大規(guī)模訓(xùn)練數(shù)據(jù)、具有強(qiáng)大生成能力的視頻擴(kuò)散模型。阿里的研究者選擇了兩種最著名、最有效的圖像轉(zhuǎn)視頻方法進(jìn)行比較：AnimateDiff和Gen2。由于這兩種方法不進(jìn)行姿態(tài)控制，因此研究者只比較了它們保持參考圖像外觀保真度的能力。研究發(fā)現(xiàn)，當(dāng)前的圖像轉(zhuǎn)視頻方法在生成大量角色動(dòng)作方面面臨挑戰(zhàn)，并且難以在視頻中保持長期的外觀一致性，從而阻礙了對(duì)一致角色動(dòng)畫的有效支持。而Animate Anybody可以制作任意角色的動(dòng)畫，包括全身人像、半身人像、卡通人物和仿人角色。該方法能夠生成高清晰度和逼真的人物細(xì)節(jié)。即使在大幅度運(yùn)動(dòng)的情況下，它也能與參考圖像保持時(shí)間上的一致性，并在幀與幀之間表現(xiàn)出時(shí)間上的連續(xù)性。
　　Animate Anybody可以運(yùn)用在時(shí)尚領(lǐng)域，為2B落地奠定基礎(chǔ)。時(shí)尚視頻合成方面，該方法的目的是利用驅(qū)動(dòng)姿態(tài)序列將時(shí)尚照片轉(zhuǎn)化為逼真的動(dòng)畫視頻。實(shí)驗(yàn)在UBC時(shí)尚視頻數(shù)據(jù)集上進(jìn)行，該數(shù)據(jù)集由500個(gè)訓(xùn)練視頻和100個(gè)測(cè)試視頻組成，每個(gè)視頻包含約350個(gè)幀。研究發(fā)現(xiàn)，Animate Anybody優(yōu)于其他方法，尤其是在視頻度量指標(biāo)方面表現(xiàn)出明顯的領(lǐng)先優(yōu)勢(shì)。此外，為了進(jìn)行公平比較，阿里的研究者使用DreamPose的開源代碼獲得了未進(jìn)行樣本微調(diào)的結(jié)果。在時(shí)尚視頻領(lǐng)域，對(duì)服裝細(xì)節(jié)的要求非常嚴(yán)格。然而，DreamPose和BDMM生成的視頻無法保持服裝細(xì)節(jié)的一致性，并在顏色和精細(xì)結(jié)構(gòu)元素方面表現(xiàn)出明顯的誤差。相比之下，Animate Anybody生成的結(jié)果能更有效保持服裝細(xì)節(jié)的一致性。我們認(rèn)為，Animate Anybody整體技術(shù)實(shí)力領(lǐng)先，并且該技術(shù)能用于時(shí)尚領(lǐng)域，為其在2B的落地奠定了基礎(chǔ)。
　　微軟推出GAIA，實(shí)現(xiàn)單圖生成虛擬視頻。會(huì)說話的虛擬人物生成旨在根據(jù)語音合成自然視頻，生成的嘴型、表情和頭部姿勢(shì)應(yīng)與語音內(nèi)容一致。以往的研究通過實(shí)施特定虛擬人物訓(xùn)練（即為每個(gè)虛擬人物訓(xùn)練或調(diào)整特定模型），或在推理過程中利用模板視頻實(shí)現(xiàn)了高質(zhì)量的結(jié)果。最近，人們致力于設(shè)計(jì)和改進(jìn)零樣本會(huì)說話的虛擬人物的生成方法（即僅有一張目標(biāo)虛擬人物的肖像圖片可以用于外貌參考）。不過，這些方法通過采用基于warping的運(yùn)動(dòng)表示、3DMorphable Model等領(lǐng)域先驗(yàn)來降低任務(wù)難度。這些啟發(fā)式方法雖然有效，但卻阻礙了從數(shù)據(jù)分布中直接學(xué)習(xí)，并可能導(dǎo)致不自然的結(jié)果和有限的多樣性。近日，微軟的研究團(tuán)隊(duì)提出了Generative AI for Avatar（GAIA）方法，其能夠從語音和單張肖像圖片合成自然的會(huì)說話的虛擬人物視頻，在生成過程中消除了領(lǐng)域先驗(yàn)。研究人員將GAIA與三個(gè)強(qiáng)大的基準(zhǔn)方法FOMM、HeadGAN和Face-vid2vid進(jìn)行比較，發(fā)現(xiàn)GAIA中的VAE比以前的視頻驅(qū)動(dòng)基線實(shí)現(xiàn)了持續(xù)的改進(jìn)，這說明GAIA成功地分解了外貌和運(yùn)動(dòng)表示。語音驅(qū)動(dòng)方面，微軟將GAIA與MakeItTalk、Audio2Head和SadTalker方法進(jìn)行定量和定性比較，GAIA在主觀評(píng)價(jià)方面大幅超越了所有基準(zhǔn)。更具體地說，即使參考圖像是閉著眼睛或擁有不尋常的頭部姿態(tài)的，基準(zhǔn)方法的生成往往高度依賴于參考圖像，相比之下，GAIA對(duì)各種參考圖像具有魯棒性，并生成具有更高自然度、口型高度同步、視覺質(zhì)量更好以及運(yùn)動(dòng)多樣性的結(jié)果。我們認(rèn)為，類似于GAIA、AnimateAnybody之類的圖轉(zhuǎn)視頻的方法不斷涌現(xiàn)，未來AI應(yīng)用場(chǎng)景有望持續(xù)擴(kuò)展。
　　風(fēng)險(xiǎn)提示：AI技術(shù)發(fā)展不及預(yù)期，AI商業(yè)落地不及預(yù)期。
　　

相關(guān)研報(bào)

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频