>> 信達(dá)證券-電子行業(yè)專題研究:四問四答,剖析算力產(chǎn)業(yè)鏈價(jià)值潛力-230618
| 上傳日期: |
2023/6/18 |
大?。?/td>
| 3775KB |
| 格式: |
pdf 共19頁(yè) |
來源: |
信達(dá)證券 |
| 評(píng)級(jí): |
看好 |
作者: |
莫文宇 |
| 行業(yè)名稱: |
電子 |
| 下載權(quán)限: |
無限制-登錄即可下載 |
|
|
Q:、ummar GPTy]進(jìn)化歷程]有何啟示? A:我們認(rèn)為GPT進(jìn)化歷程有力證明了“大數(shù)據(jù)+大參數(shù)”具有可行性。Transformer架構(gòu)在2017年被提出,在捕獲長(zhǎng)序列語義特征方面的優(yōu)勢(shì)迅速讓其成為了隨后數(shù)年間NLP領(lǐng)域的領(lǐng)頭羊。除了注意力機(jī)制被廣泛使用外,基于Transformer架構(gòu)decoder發(fā)展出GPT家族,基于encoder發(fā)展出BERT系列。為了充分利用未經(jīng)標(biāo)注的大量語料,OpenAI創(chuàng)造性地讓模型在預(yù)訓(xùn)練之后便直接進(jìn)行推理,這種方式在GPT-3上取得了成功。隨后,OpenAI引入強(qiáng)化學(xué)習(xí),避免GPT生成不合乎人類價(jià)值觀甚至沒有邏輯的答案。在GPT的迭代中,模型的規(guī)模越來越大,而性能也在顯著提升。GPT-4在許多考試中都取得了八十分位的成績(jī),相當(dāng)于一個(gè)優(yōu)秀的人類學(xué)生。同時(shí),在多模態(tài)方面的能力也為未來指明了方向。 “大參數(shù)+大數(shù)據(jù)”有何優(yōu)越?演進(jìn)路線未來是否持續(xù)? A:關(guān)于大模型的好處:在論文《Scaling Laws for Neural LanguageModels》中,研究者總結(jié)出模型的損失(Loss)與計(jì)算量、模型規(guī)模、參數(shù)規(guī)模三個(gè)變量強(qiáng)相關(guān),并且在其他兩個(gè)變量恒定下,Loss與該變量呈現(xiàn)冪級(jí)關(guān)系,這一結(jié)論可稱為縮放定律(scaling laws),縮放定律表明大模型“大有大的好處”。此外,大模型展現(xiàn)出良好的涌現(xiàn)能力。涌現(xiàn)能力可以理解為“頓悟”。在模型規(guī)模提升到某一臨界點(diǎn),模型準(zhǔn)確度迅猛提升。目前對(duì)于涌現(xiàn)能力本身及其產(chǎn)生的具體原因尚有爭(zhēng)議,但是涌現(xiàn)能力確實(shí)讓大模型的商業(yè)化方向有了很大空間。 關(guān)于“大數(shù)據(jù)+大參數(shù)”能否持續(xù),主要關(guān)注兩個(gè)限制,即語料和算力。第一個(gè)限制:語料可能會(huì)用光。據(jù)epochai的預(yù)測(cè),高質(zhì)量語言數(shù)據(jù)將在2026年前耗光,低質(zhì)量語言數(shù)據(jù)將在2030-2050年耗光,圖像數(shù)據(jù)將在2060年左右耗光。但是語料耗光并不意味著大模型會(huì)停止前進(jìn),目前許多模型對(duì)語料的訓(xùn)練并不充分。第二個(gè)限制:硬件提供的算力是有限的。由于硬件端的限制,許多大模型在“變大”方面受到限制。在固定算力的情況下,模型參數(shù)和訓(xùn)練數(shù)據(jù)需要較好配合才能使得模型性能發(fā)揮到最大。 Q:算力需求跑得多快?天花板在哪里? A:訓(xùn)練階段的算力需求方面,約9.9個(gè)月翻倍。OpenAI在論文《Language Models are Few-Shot Learners》中公布了不同模型的計(jì)算次數(shù),其中GPT-3計(jì)算次數(shù)大約3.14E+23次,GPT-3的計(jì)算次數(shù)大約等于“參數(shù)量(175B)訓(xùn)練集規(guī)模(300B tokens)”的6倍。但這種關(guān)系并不一定完全成立,例如在BERT的模型中這一比例也接近6左右,但是在T5的模型中僅為3左右。Jaime Sevilla、LennartHeim等研究者在《COMPUTETRENDSACROSSTHREEERAS OFMACHINELEARNIN》中,將數(shù)據(jù)集以對(duì)數(shù)線性回歸方式進(jìn)行研究,根據(jù)結(jié)果將機(jī)器學(xué)習(xí)訓(xùn)練算力分為3個(gè)時(shí)代: 前深度學(xué)習(xí)時(shí)代(1952-2010):平均每21.3個(gè)月翻一倍。 深度學(xué)習(xí)時(shí)代(2010-2022):平均每5.7個(gè)月翻一倍。 大模型時(shí)代(2015-2022):平均9.9個(gè)月翻一倍。 但我們認(rèn)為這一測(cè)算傾向于低估算力需求的成長(zhǎng)速度。《COMPUTETRENDSACROSSTHREEERASOFMACHINELEARNIN》發(fā)布時(shí)間在2022年中,彼時(shí)GPT-3相對(duì)于BERT而言并無顯著優(yōu)勢(shì)。ChatGPT發(fā)布時(shí)間在2022年底,并且在終端用戶中取得了良好的反響,我們認(rèn)為這至少是一次中等規(guī)模的產(chǎn)業(yè)革命。在此催化下,大模型路線的可行性已被驗(yàn)證,算力翻倍的時(shí)間或?qū)@著縮短,低于9.9個(gè)月。 推理階段的算力需求方面,模型本身參數(shù)量及接入人數(shù)是兩個(gè)顯著變量。從模型參數(shù)來看,初代GPT到GPT-2、GPT-2到GPT-3的模型參數(shù)量分別增加15、100倍左右,GPT4的參數(shù)量并未公開,但由于GPT-3參數(shù)量已經(jīng)達(dá)到1750億,我們認(rèn)為從GPT-2到GPT-3這樣兩個(gè)數(shù)量級(jí)的增長(zhǎng)已很難復(fù)刻,但仍可以推測(cè)參數(shù)量仍在快速增長(zhǎng)。從接入用戶看,OpenAI的訪問次數(shù)迅猛提升。據(jù)similarweb數(shù)據(jù),三月OpenAI訪問次數(shù)為1.64B次,5月約為1.86B次。盡管增勢(shì)在不斷放緩,但我們也需考慮到兩方面因素:第一,時(shí)間縱向上看,GPT-4并不是完美的,模型本身也在不斷成長(zhǎng);第二,地區(qū)橫向上看,持續(xù)不斷的大模型正在推出。 大模型數(shù)量方面,不斷有新的大模型在推出,且隨著投資的增加,模型訓(xùn)練時(shí)間有望不斷縮減。越來越多的大模型正在不斷推出,這些模型除了越來越大以外,模型的推出節(jié)點(diǎn)也在變得密集。從Wayne XinZhao等人的統(tǒng)計(jì)結(jié)果來看,大模型的參數(shù)量、預(yù)訓(xùn)練數(shù)據(jù)規(guī)模不斷增長(zhǎng)。參數(shù)方面,2023年華為推出的盤古-Σ達(dá)到1085B(1萬億),而數(shù)據(jù)量方面也達(dá)到了329B tokens。研究機(jī)構(gòu)epochai對(duì)訓(xùn)練模型所需的時(shí)間進(jìn)行了測(cè)算,考慮了三個(gè)變量,分別為硬件改善、算法改善和資本增加,發(fā)現(xiàn)在三個(gè)因素共振的情況下,訓(xùn)練模型的最佳時(shí)間區(qū)間從3.55年縮短至2.52個(gè)月。我們認(rèn)為,在ChatGPT取得成功以來,各國(guó)各大廠已足夠重視大模型的發(fā)展,在上述三個(gè)變量中,硬件性能提升主要取決于相關(guān)大廠的產(chǎn)品迭代,而算法和預(yù)算均有望靠人力投入和資本開支在
|
|