天域苍穹,盗墓笔记小说txt下载,好看的玄幻小说

登錄忘記密碼注冊

>> 國盛證券-計算機行業(yè)周報：多模態(tài)對算力影響探討-231007

上傳日期：	2023/10/7	大?。?/td>	1640KB
格式：	pdf 共16頁	來源：	國盛證券
評級：	增持	作者：	劉高暢,陳芷婧
行業(yè)名稱：	計算機
下載權(quán)限：	無限制-登錄即可下載

多模態(tài)能力躍遷，GPT-4V開啟視覺交互時代。1）9月25日，OpenAI官方宣布，其開始在ChatGPT中推出新的語音和圖像功能；同日，OpenAI發(fā)布《GPT-4V(ision) system card》，探索并展示此次大模型在視覺上的能力及其邊界，類似于GPT-4，GPT-4V的訓(xùn)練在2022年完成，OpenAI從2023年3月開始提供早期訪問；9月29日，微軟團隊發(fā)布《The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)》，詳細測評GPT-4V在多類任務(wù)上的表現(xiàn)。2）具體而言，支持圖像輸入并理解分析為GPT-4V的主要革新。在輸入方式上，GPT-4V支持圖像、子圖像、文本、場景文本、視覺指針及其混合集；在能力上，GPT-4V在視覺理解和解釋、視覺參考提示、時間序列與視頻理解、抽象視覺推理與智力測試、情商測試等實驗中均表現(xiàn)優(yōu)秀。3）未來，GPT-4V應(yīng)用場景廣闊，其在理解視覺世界上的卓越能力，可應(yīng)用于缺陷檢測、安全檢查、雜貨結(jié)賬、醫(yī)療影像、汽車保險相關(guān)評估、定制化圖像生成、智能機器、GUI導(dǎo)航等多個場景。
　　CLIP打開圖文對齊大門，或為實現(xiàn)多模態(tài)的核心基礎(chǔ)。1）目前，視覺+語言多模態(tài)大模型相對主流的實現(xiàn)方法為：借助預(yù)訓(xùn)練好的大語言模型和圖像編碼器，用一個圖文特征對齊模塊來連接，從而讓語言模型理解圖像特征并進行更深層的問答推理。根據(jù)OpenAI及微軟目前官方發(fā)布的GPT-4V相關(guān)信息，我們并不能詳細了解其實現(xiàn)視覺模型的具體方法，但或許可以從OpenAI發(fā)布的CLIP系統(tǒng)，初步了解多模態(tài)大模型的實現(xiàn)方式。2）CLIP由OpenAI于2021年1月提出，其通過超大規(guī)模模型預(yù)訓(xùn)練提取視覺特征，進行圖片和文本之間的對比學習，即將一張圖片與能較好表達這張圖片內(nèi)容的一段文字聯(lián)系起來，該模型訓(xùn)練完畢后即使不微調(diào)直接進行推理，即可達到良好的效果。為了訓(xùn)練CLIP，OpenAI構(gòu)建了一個4億容量的數(shù)據(jù)集，彼時在2021年，最優(yōu)的模型大約需要256張V100、訓(xùn)練12天，效果即可顯著優(yōu)于傳統(tǒng)視覺分類器。3）我們認為，通過將圖像和文本的特征對齊，CLIP充當了圖像-文本編碼器，在視覺和文本之間架起一座橋梁，將其整合到同一個潛在空間（一種矢量化的數(shù)據(jù)關(guān)系網(wǎng)）中，這種技術(shù)或可以讓ChatGPT跨文本和圖像進行上下文推理，CLIP以及后續(xù)迭代的BLIP、BLIP2等為實現(xiàn)大模型視覺功能的核心基礎(chǔ)。
　　多模態(tài)應(yīng)用空間廣闊，算力需求或呈量級式提升。1）訓(xùn)練階段：GPT4可能是在10000-25000張A100上訓(xùn)練的；而對于GPT5，其可能需要25000-50000張H100進行訓(xùn)練。相比GPT3.5約數(shù)千張H100的需求量，GPT4、GPT5等相對成熟的多模態(tài)模型算力需求提升約數(shù)倍至十倍級別。2）推理階段：數(shù)據(jù)量角度而言，圖片、視頻、語音均相對于文字交互有數(shù)個量級的提升，或?qū)?yīng)算力需求的高速擴張。文字：Outlook等主流郵箱已可利用OpenAI技術(shù)及GPT自動生成格式化的電子郵件回復(fù)，考慮全球每天超3000億封的電子郵件發(fā)送量、Outlook約8%的市占率、每個單詞數(shù)據(jù)量約為5B等因素，我們預(yù)計，接入Outlook郵件場景后，Chatgpt每日生成數(shù)據(jù)量或為261GB，相比ChatGPT官網(wǎng)問答式場景約33GB的數(shù)據(jù)量有數(shù)倍提升。語音：Teams與OpenAI已正式開展合作，可實現(xiàn)生成紀要、劃分章節(jié)、時間標記、實時翻譯等多類功能，官方定價為10美元/月。相比文字，音頻數(shù)據(jù)量明顯更大，約為2B/秒；參考Teams每日約60億分鐘的總會議時長，考慮相關(guān)功能使用比例，Teams每日新增數(shù)據(jù)量需求約為336GB。圖片：根據(jù)文字描述、標簽點擊等自動生成圖片的功能已有商業(yè)化落地，萬興科技Filmora也已接入OpenAI，為視頻創(chuàng)作者提供更定制化的圖片素材。根據(jù)我們估算，以Filmora現(xiàn)有場景為基礎(chǔ)，OpenAI圖片素材輸出數(shù)據(jù)量約為每日586GB。視頻：《犬與少年》是AIGC技術(shù)輔助商業(yè)動畫片的發(fā)行級別作品，由Netflix、小冰公司日本分部（rinna）、WITSTUDIO共同創(chuàng)作。在視頻領(lǐng)域，單秒輸出數(shù)據(jù)量或達到1MB，是目前最為復(fù)雜的應(yīng)用場景之一。隨著AIGC技術(shù)在影視劇集、宣傳視頻等領(lǐng)域逐步滲透，視頻創(chuàng)作效率或迎來顯著提升，星辰大海拉開序幕。
　　相關(guān)標的：
　　1）多模態(tài)應(yīng)用：大華股份、?？低暋⒅锌苿?chuàng)達、千方科技、虹軟科技、當虹科技等。
　　2）辦公應(yīng)用：金山辦公、萬興科技、福昕軟件、科大訊飛等。
　　3）落地快&估值性價比：大華股份、漫步者、傳音控股、?？低暋⑿聡?、賽意信息、紫天科技等。
　　4）算力側(cè)：英偉達、中科曙光、浪潮信息、中際旭創(chuàng)、工業(yè)富聯(lián)、云賽智聯(lián)、神州數(shù)碼、拓維信息、四川長虹、烽火通信、海光信息、恒潤股份、新易盛、恒為科技、易華錄、阿爾特、潤建股份、寒武紀、景嘉微、中貝通信、創(chuàng)業(yè)黑馬等。
　　5）機器人：硬件供應(yīng)商：三花智控、拓普集團、鳴志電器、綠的諧波、峰岹科技等。
　　風險提示：AI技術(shù)迭代不及預(yù)期風險；假設(shè)與實際情況不符風險；經(jīng)濟下行超預(yù)期風險；行業(yè)競爭加劇風險。
　　

相關(guān)行業(yè)報告

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频