>> 方正證券-計算機行業(yè):Sora有望帶來AI生成視頻領域的新一輪變革-240218
| 上傳日期: |
2024/2/21 |
大小: |
2806KB |
| 格式: |
pdf 共19頁 |
來源: |
方正證券 |
| 評級: |
-- |
作者: |
張初晨,陳嵩 |
| 下載權限: |
此報告為加密報告,僅限高級會員查看 |
|
|
Sora對AI生成視頻產業(yè)的影響:Transformer或異軍突起,頭部效應可能更明顯,離AGI又更進一步 Transformer可能逐漸取代U-Net成為擴散模型中去噪網絡的首選:Transformer-diffusion在AI視頻生成領域的核心痛點在于內存需求隨著輸入序列長度增加會指數級增長,處理視頻信號的成本很高,沒辦法生成高分辨率的圖像;Sora通過引入視頻壓縮網絡(含時空自編碼器與解碼器)& Pacth化解決了這個問題,Transformer對時間幀的記憶有優(yōu)勢,因此生成長視頻過程中比U-Net更能保證幀與幀之間的連續(xù)性,分辨率短板補足后很可能取代U-Net成為擴散模型中的主流backbone。 Sora證明了AI生成視頻領域同樣適用“參數量越大+訓練時間越長=訓練效果越好”:Transformer的特征是可拓展性強,模型參數量越大、訓練數據集越大、訓練時間越長效果就會越好;Sora通過其強大的涌現能力再次說明了這一點,即“參數量越大+訓練時間越長=訓練效果越好”,AI生成視頻可能帶來新一輪算力需求爆發(fā)。 AI生成視頻與LLM是勾稽的,這個領域很可能還是強者恒強:Sora語義信息理解能力強大的背后是通過GPT來重新生成高度描述性的caption,從而提高視頻-文本對數據集的質量,再次說明沒有優(yōu)質的訓練數據集很難做出好的模型,而視頻標注的難度又遠大于文本與圖像,對于視頻自動標注模型的要求非常高。以OpenAI(微軟)、Google為代表的多模態(tài)頭部廠商依然優(yōu)勢明顯,純粹做模型的初創(chuàng)公司在AI生成視頻領域的機會或許不大。此外,做安防&自動駕駛的公司可能會有差異化的機會,得益于大量的視頻數據積累,有能力開發(fā)高質量的視頻自動標注模型&擁有優(yōu)質的“視頻-文本對”數據集(可以自用也可以出售)。 AI生成視頻領域的“Midjourney時刻”可能很快到來:Transformer模型的涌現特征意味著模型提升的速度將非??欤纳曨l從可用到好用的拐點或加速到來,應用生態(tài)也有望加速繁榮。 離實現AGI又前進了一步:Sora展現出的理解能力、推理能力已經有些世界模型的雛形(通過預測周圍環(huán)境未來的變化,來規(guī)劃決策),人類邁向通用人工智能的腳步或許又快了一些。 風險提示 行業(yè)競爭加劇風險:隨著技術更加成熟,以及行業(yè)滲透率提升,市場參與者之間的競爭可能會加劇。模型及應用廠商如未能快速建立數據、場景、及用戶習慣的壁壘,進一步增長可能面臨困難,以及被頭部廠商整合并購的可能。 人工智能配套及監(jiān)管政策不及預期:當前技術發(fā)展仍處于早期,行業(yè)對人工智能發(fā)展安全性及倫理性的討論仍在進行。盡管當前大部分國家對人工智能技術發(fā)展持積極鼓勵的態(tài)度,但不排除未來政府及相關組織會基于安全合規(guī)的考慮,出臺進一步監(jiān)管或規(guī)范措施的可能。 行業(yè)公司產品落地及市場拓展不及預期:行業(yè)內眾多廠商產品的商業(yè)變現路徑仍在探索,定位客群,并提高目標客戶的支付意愿是企業(yè)對AI技術投入的關鍵。后續(xù)相關公司的經營和產品數據仍需建立密切的跟蹤。
|
|