>> 華創(chuàng)證券-傳媒行業(yè)AI產(chǎn)品測評體驗系列報告-快手可靈:國產(chǎn)首發(fā)對標Sora的DiT架構(gòu)文生視頻AI模型-240607
| 上傳日期: |
2024/6/8 |
大?。?/td>
| 1060KB |
| 格式: |
pdf 共10頁 |
來源: |
華創(chuàng)證券 |
| 評級: |
推薦 |
作者: |
劉欣 |
| 行業(yè)名稱: |
傳媒 |
| 下載權(quán)限: |
此報告為加密報告,僅限高級會員查看 |
|
|
快手可靈是快手于2024年6月6日推出的一款AI視頻生成大模型的AI視頻。可靈為快手AI團隊自研,基于快手在視頻技術(shù)方面的多年積累,采用類似Sora的DiT技術(shù)路線,結(jié)合多項自研技術(shù)創(chuàng)新,效果對標Sora。 從技術(shù)角度看,快手可靈結(jié)合多項自研技術(shù)創(chuàng)新,采用了原生的文生視頻技術(shù)路線,替代了圖像生成+時序模塊的組合,實現(xiàn)了可靈生成時間長、幀率高,能準確處理復雜運動的能力。在完成度上,能夠模擬物理世界特性,完成大幅度的合理運動;在創(chuàng)新度上,具備強大的概念組合能力和想象力,能夠?qū)⒂脩糌S富的想象力轉(zhuǎn)化為具體的畫面;在參數(shù)表現(xiàn)上,不僅支持生成長達2分鐘的30fps且具備1080p分辨率的超長視頻,同時支持多種寬高比。 從功能體驗看,快手可靈大模型具備強大的視頻生成能力讓用戶可以輕松高效地完成藝術(shù)視頻創(chuàng)作,通過文字描述,可靈生成的視頻可實現(xiàn)1)大幅度的合理運動:可靈采用3D時空聯(lián)合注意力機制,能夠更好地建模復雜時空運動,生成較大幅度運動的視頻內(nèi)容,同時能夠符合運動規(guī)律,復雜、大幅度的時空運動也能準確刻畫;2)長達2分鐘的視頻生成:得益于高效的訓練基礎(chǔ)設(shè)施、極致的推理優(yōu)化和可擴展的基礎(chǔ)架構(gòu),可靈大模型能夠生成長達2分鐘的視頻,且?guī)蔬_到30fps;3)模擬物理世界特性:基于自研模型架構(gòu)及ScalingLaw激發(fā)出的強大建模能力,可靈能夠模擬真實世界的物理特性,生成符合物理規(guī)律的視頻;4)強大的概念組合能力:基于對文本-視頻語義的深刻理解和Diffusion Transformer架構(gòu)的強大能力,可靈能夠?qū)⒂脩糌S富的想象力轉(zhuǎn)化為具體的畫面,虛構(gòu)真實的世界;5)電影級的畫面生成:基于自研3DVAE,可靈能夠生成1080p分辨率的電影級視頻,無論是浩瀚壯闊的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現(xiàn);6)支持自由的輸出視頻寬高比:可靈采用了可變分辨率的訓練策略,在推理過程中可以做到同樣的內(nèi)容輸出多種多樣的視頻寬高比,滿足更豐富場景中的視頻素材使用需要。 從行業(yè)視角看,快手作為頭部短視頻公司積極布局AI,其產(chǎn)品表現(xiàn)不僅展現(xiàn)了快手在AI大模型技術(shù)方面的深厚積累,也體現(xiàn)了國產(chǎn)AI視頻模型的技術(shù)能力。我們看好AI技術(shù)持續(xù)迭代,中國廠商技術(shù)加速追趕,看好AI視頻應用加速發(fā)展與商業(yè)化探索,看好內(nèi)容創(chuàng)作的門檻降低。 風險提示:政策監(jiān)管趨嚴,AI技術(shù)迭代發(fā)展不及預期,AI產(chǎn)品商業(yè)化不及預期。
|
|