我吃西红柿,官场小说排行榜,完美世界小说下载

登錄忘記密碼注冊

>> 華泰證券-傳媒行業(yè)專題研究：Vidu-國內(nèi)AI視頻生成模型新突破-240509

上傳日期：	2024/5/10	大?。?/td>	3138KB
格式：	pdf 共23頁	來源：	華泰證券
評級：	增持	作者：	朱珺,吳珺
行業(yè)名稱：	傳媒
下載權(quán)限：	此報告為加密報告

全球AI大模型持續(xù)迭代，持續(xù)看好視頻等多模態(tài)發(fā)展前景
　　今年以來，全球AI大模型端都持續(xù)迭代升級，包括海外的Sora、Llama3等，國內(nèi)的Kimi、昆侖天工AI、階躍星辰等。4月27日，北京生數(shù)科技有限公司聯(lián)合清華大學(xué)發(fā)布了中國首個長時長、高一致性、高動態(tài)性視頻大模型Vidu。行業(yè)的發(fā)展進(jìn)度有望不斷催化傳媒相關(guān)板塊的發(fā)展，我們看好：1）AI視頻大模型依賴多樣化訓(xùn)練數(shù)據(jù)，高質(zhì)量視頻素材庫價值凸顯；2）AI大模型助力應(yīng)用場景發(fā)展。我們推薦：昆侖萬維、光線傳媒、捷成股份、值得買。其他產(chǎn)業(yè)鏈標(biāo)的包括華策影視、中文在線、中廣天擇、掌閱科技等。
　　Vidu：國內(nèi)AI視頻生成模型新突破
　　Vidu采用了團(tuán)隊原創(chuàng)的Diffusion與Transformer融合的架構(gòu)U-ViT，能夠一鍵生成長達(dá)16秒、分辨率達(dá)到1080P的高清視頻內(nèi)容，其擁有豐富的想象力，能夠模擬真實物理世界，并具備多鏡頭生成、時空一致性高等特點(diǎn)。核心團(tuán)隊來源于清華大學(xué)人工智能團(tuán)隊，首席科學(xué)家為清華人工智能研究院副院長朱軍。公司的多模態(tài)大模型為全棧自研，能夠融合文本、圖像、3D、視頻等多模態(tài)信息。除文生視頻外，公司在文生圖、3D生成等多模態(tài)能力上均有所造詣。
　　Vidu快速進(jìn)化，與Sora差距不斷縮小
　　2024年1月，生數(shù)團(tuán)隊實現(xiàn)4秒視頻的生成，已可以達(dá)到Pika、Runway的效果，至3月底實現(xiàn)8秒視頻生成，4月實現(xiàn)16秒視頻生成，在3個月內(nèi)生成時長提升至4倍，且據(jù)4月27日中關(guān)村論壇中生數(shù)領(lǐng)軍人朱軍的發(fā)言，Vidu會以更快的速度迭代，與Sora差距將越來越小。Vidu生成視頻的運(yùn)動幅度較大。除Sora外，目前文/圖生視頻較難做到讓人物做出復(fù)雜動作，因此為了保證畫面畸變最小，視頻生成的策略為選擇小幅度的運(yùn)動，較難設(shè)計復(fù)雜動作，難以處理場景和人物的一致性問題。Vidu在保證了時空一致性的前提下運(yùn)動幅度較大。分辨率趕上第一梯隊，但仍為固定比例尺寸。
　　Vidu模型使用U-ViT架構(gòu)，多模態(tài)、效果好、成本低
　　在U-ViT前，Diffusion模型中的主流主干（backbone）一直為基于CNN的U-Net。U-ViT是生數(shù)科技團(tuán)隊設(shè)計的一種簡單通用的、基于ViT的架構(gòu)，使用Diffusion生成圖像，打響了擴(kuò)散模型中CNN被Transformer取代的第一槍。模型首先對輸入圖像進(jìn)行分割處理（分割為patch），與時間和條件一道表示為token后通過Embedding層，隨后經(jīng)過Transformer Block后輸出為token，并通過一個線性層轉(zhuǎn)為圖塊，最后通過一個可選的3X3卷積層輸出為最終結(jié)果。此外，U-ViT成本優(yōu)勢大幅領(lǐng)先，主要得益于ViT架構(gòu)的訓(xùn)練成本較低。
　　風(fēng)險提示：競爭加劇，模型發(fā)展進(jìn)度低于預(yù)期，政策監(jiān)管風(fēng)險等。
　　

相關(guān)行業(yè)報告

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频