>> 華泰證券-傳媒行業(yè)專題研究:Vidu-國內(nèi)AI視頻生成模型新突破-240509
| 上傳日期: |
2024/5/10 |
大?。?/td>
| 3138KB |
| 格式: |
pdf 共23頁 |
來源: |
華泰證券 |
| 評級: |
增持 |
作者: |
朱珺,吳珺 |
| 行業(yè)名稱: |
傳媒 |
| 下載權(quán)限: |
此報告為加密報告 |
|
|
全球AI大模型持續(xù)迭代,持續(xù)看好視頻等多模態(tài)發(fā)展前景 今年以來,全球AI大模型端都持續(xù)迭代升級,包括海外的Sora、Llama3等,國內(nèi)的Kimi、昆侖天工AI、階躍星辰等。4月27日,北京生數(shù)科技有限公司聯(lián)合清華大學(xué)發(fā)布了中國首個長時長、高一致性、高動態(tài)性視頻大模型Vidu。行業(yè)的發(fā)展進(jìn)度有望不斷催化傳媒相關(guān)板塊的發(fā)展,我們看好:1)AI視頻大模型依賴多樣化訓(xùn)練數(shù)據(jù),高質(zhì)量視頻素材庫價值凸顯;2)AI大模型助力應(yīng)用場景發(fā)展。我們推薦:昆侖萬維、光線傳媒、捷成股份、值得買。其他產(chǎn)業(yè)鏈標(biāo)的包括華策影視、中文在線、中廣天擇、掌閱科技等。 Vidu:國內(nèi)AI視頻生成模型新突破 Vidu采用了團(tuán)隊原創(chuàng)的Diffusion與Transformer融合的架構(gòu)U-ViT,能夠一鍵生成長達(dá)16秒、分辨率達(dá)到1080P的高清視頻內(nèi)容,其擁有豐富的想象力,能夠模擬真實物理世界,并具備多鏡頭生成、時空一致性高等特點(diǎn)。核心團(tuán)隊來源于清華大學(xué)人工智能團(tuán)隊,首席科學(xué)家為清華人工智能研究院副院長朱軍。公司的多模態(tài)大模型為全棧自研,能夠融合文本、圖像、3D、視頻等多模態(tài)信息。除文生視頻外,公司在文生圖、3D生成等多模態(tài)能力上均有所造詣。 Vidu快速進(jìn)化,與Sora差距不斷縮小 2024年1月,生數(shù)團(tuán)隊實現(xiàn)4秒視頻的生成,已可以達(dá)到Pika、Runway的效果,至3月底實現(xiàn)8秒視頻生成,4月實現(xiàn)16秒視頻生成,在3個月內(nèi)生成時長提升至4倍,且據(jù)4月27日中關(guān)村論壇中生數(shù)領(lǐng)軍人朱軍的發(fā)言,Vidu會以更快的速度迭代,與Sora差距將越來越小。Vidu生成視頻的運(yùn)動幅度較大。除Sora外,目前文/圖生視頻較難做到讓人物做出復(fù)雜動作,因此為了保證畫面畸變最小,視頻生成的策略為選擇小幅度的運(yùn)動,較難設(shè)計復(fù)雜動作,難以處理場景和人物的一致性問題。Vidu在保證了時空一致性的前提下運(yùn)動幅度較大。分辨率趕上第一梯隊,但仍為固定比例尺寸。 Vidu模型使用U-ViT架構(gòu),多模態(tài)、效果好、成本低 在U-ViT前,Diffusion模型中的主流主干(backbone)一直為基于CNN的U-Net。U-ViT是生數(shù)科技團(tuán)隊設(shè)計的一種簡單通用的、基于ViT的架構(gòu),使用Diffusion生成圖像,打響了擴(kuò)散模型中CNN被Transformer取代的第一槍。模型首先對輸入圖像進(jìn)行分割處理(分割為patch),與時間和條件一道表示為token后通過Embedding層,隨后經(jīng)過Transformer Block后輸出為token,并通過一個線性層轉(zhuǎn)為圖塊,最后通過一個可選的3X3卷積層輸出為最終結(jié)果。此外,U-ViT成本優(yōu)勢大幅領(lǐng)先,主要得益于ViT架構(gòu)的訓(xùn)練成本較低。 風(fēng)險提示:競爭加劇,模型發(fā)展進(jìn)度低于預(yù)期,政策監(jiān)管風(fēng)險等。
|
|