>> 華泰證券-計算機行業(yè)專題研究:海外AI大模型發(fā)展復盤-230821
| 上傳日期: |
2023/8/21 |
大?。?/td>
| 538KB |
| 格式: |
pdf 共5頁 |
來源: |
華泰證券 |
| 評級: |
增持 |
作者: |
謝春生 |
| 行業(yè)名稱: |
計算機 |
| 下載權限: |
此報告為加密報告,僅限高級會員查看 |
|
|
復盤:海外AI大模型發(fā)展呈現(xiàn)5大趨勢 復盤了2022年11月底ChatGPT發(fā)布到當前時點海外AI大模型的發(fā)展情況,我們認為呈現(xiàn)出5大趨勢。1)閉源大模型龍頭效應顯著,OpenAI、Google、Anthropic三足鼎立局面基本形成;2)開源模型生態(tài)逐步完善,Meta引領開源發(fā)展;3)模型模態(tài)逐步豐富,文本到圖像、圖像到文本、多模態(tài)統(tǒng)一到單一模型等領域均有發(fā)展;4)模型落地場景豐富,軟件側場景包括AI agent、垂類模型,終端側場景包括智能終端大模型、具身智能模型;5)上下文窗口持續(xù)拓寬,更長的上下文窗口意味著模型能夠一次性輸入更多的內容,使得模型對長內容的掌握更加完善,回答更加合理。 閉源vs開源:更好的服務vs更自由的開發(fā)環(huán)境 海外的閉源模型主要包括OpenAI的GPT系列,Google的PaLM/Gemini(待發(fā)布)系列和Anthropic的Claude系列。從模態(tài)來看,Claude/PaLM/GPT-3.5均為語言模型,GPT-4/Genimi為多模態(tài)模型;商業(yè)模式看,三家均支持API付費調用,OpenAI還另外支持會員服務($20/月);微調功能看,GPT-3系列支持微調,Claude模型需要申請微調權限,PaLM2暫不支持微調。開源模型生態(tài)由Meta引領,基于開源發(fā)布的Llama 1/2,開發(fā)者和企業(yè)紛紛訓練/微調新的模型。此外,Llama 2支持商業(yè)化,有助于Meta進一步拓展開源生態(tài),我們認為有望復刻Android的商業(yè)化路徑。 模態(tài):從單一模態(tài)向多模態(tài)延展 在模型從單一模態(tài)向多模態(tài)擴展的過程中,Google、Meta、Stability AI是典型代表。其中,Google的Vision Transformer打通了文本Transformer架構與圖像的“壁壘”,在此基礎上,大語言模型PaLM吸收了ViT得到PaLM-E,擴展了多模態(tài)和具身智能。此外,PaLM也可以擴展到音頻領域得到AudioPaLM。Meta在音頻生成領域成果豐富,先后發(fā)布通用文本轉語音模型Voicebox,以及文本轉音樂/音效模型AudioCraft等。Stability AI則反其道而行,其起家模型為文生圖的穩(wěn)定擴散(stable diffusion)模型,隨后在LLM和代碼模型上先后發(fā)布新成果。 場景:具身智能+AI agent+智能終端+垂類模型 具身智能領域,主要思路是使用機器人動作數(shù)據(jù)來訓練大模型,實現(xiàn)機器人動作預測。代表模型包括Google的PaLM-E/RoboCat/RT-2,英偉達的VIMA等。AI agent定義為LLM(核心大腦)、記憶、任務規(guī)劃以及工具使用的集合,能夠自動化的分解、處理、記憶、輸出用戶需求,典型agent包括Auto-GPT/MetaGPT/Hyperwrite AI agent等。智能終端中,Vifa已在智能音箱中落地了大模型,高通則基于驍龍平臺部署了可端側運行的穩(wěn)定擴散模型。垂類模型方面,彭博基于金融專業(yè)數(shù)據(jù)訓練了BloombergGPT,Google也基于醫(yī)療和網安數(shù)據(jù)分別訓練了Med-PaLM和Sec-PaLM行業(yè)模型。 上下文窗口:呈繼續(xù)拓寬趨勢 在語言模型中,上下文窗口對于理解和生成與特定上下文相關的文本至關重要。較大上下文窗口可以提供更豐富的語義信息、消除歧義、處理上下文依賴性,并幫助模型生成連貫、準確的文本,還能更好地捕捉語言的上下文相關性,使得模型能夠根據(jù)前文來做出更準確的預測或生成。目前,商業(yè)閉源模型中Claude全系提供了100K的上下文窗口。研究層面,微軟LONGNET通過引入新的記憶力機制將上下文窗口擴展到10億token。 風險提示:宏觀經濟波動,技術進步不及預期。本報告內容均基于客觀信息整理,不構成投資建議。
|
|