yy玄幻小说排行榜完本,古风小说君子以泽,遮天辰东小说笔趣阁

>> 信達(dá)證券-電子行業(yè)專題研究：四問四答，剖析算力產(chǎn)業(yè)鏈價(jià)值潛力-230618

上傳日期：	2023/6/18	大?。?/td>	3775KB
格式：	pdf 共19頁(yè)	來源：	信達(dá)證券
評(píng)級(jí)：	看好	作者：	莫文宇
行業(yè)名稱：	電子
下載權(quán)限：	無限制-登錄即可下載

Q：、ummar GPTy]進(jìn)化歷程]有何啟示？
　　A：我們認(rèn)為GPT進(jìn)化歷程有力證明了“大數(shù)據(jù)+大參數(shù)”具有可行性。Transformer架構(gòu)在2017年被提出，在捕獲長(zhǎng)序列語義特征方面的優(yōu)勢(shì)迅速讓其成為了隨后數(shù)年間NLP領(lǐng)域的領(lǐng)頭羊。除了注意力機(jī)制被廣泛使用外，基于Transformer架構(gòu)decoder發(fā)展出GPT家族，基于encoder發(fā)展出BERT系列。為了充分利用未經(jīng)標(biāo)注的大量語料，OpenAI創(chuàng)造性地讓模型在預(yù)訓(xùn)練之后便直接進(jìn)行推理，這種方式在GPT-3上取得了成功。隨后，OpenAI引入強(qiáng)化學(xué)習(xí)，避免GPT生成不合乎人類價(jià)值觀甚至沒有邏輯的答案。在GPT的迭代中，模型的規(guī)模越來越大，而性能也在顯著提升。GPT-4在許多考試中都取得了八十分位的成績(jī)，相當(dāng)于一個(gè)優(yōu)秀的人類學(xué)生。同時(shí)，在多模態(tài)方面的能力也為未來指明了方向。
　　“大參數(shù)+大數(shù)據(jù)”有何優(yōu)越？演進(jìn)路線未來是否持續(xù)？
　　A：關(guān)于大模型的好處：在論文《Scaling Laws for Neural LanguageModels》中，研究者總結(jié)出模型的損失（Loss）與計(jì)算量、模型規(guī)模、參數(shù)規(guī)模三個(gè)變量強(qiáng)相關(guān)，并且在其他兩個(gè)變量恒定下，Loss與該變量呈現(xiàn)冪級(jí)關(guān)系，這一結(jié)論可稱為縮放定律（scaling laws），縮放定律表明大模型“大有大的好處”。此外，大模型展現(xiàn)出良好的涌現(xiàn)能力。涌現(xiàn)能力可以理解為“頓悟”。在模型規(guī)模提升到某一臨界點(diǎn)，模型準(zhǔn)確度迅猛提升。目前對(duì)于涌現(xiàn)能力本身及其產(chǎn)生的具體原因尚有爭(zhēng)議，但是涌現(xiàn)能力確實(shí)讓大模型的商業(yè)化方向有了很大空間。
　　關(guān)于“大數(shù)據(jù)+大參數(shù)”能否持續(xù)，主要關(guān)注兩個(gè)限制，即語料和算力。第一個(gè)限制：語料可能會(huì)用光。據(jù)epochai的預(yù)測(cè)，高質(zhì)量語言數(shù)據(jù)將在2026年前耗光，低質(zhì)量語言數(shù)據(jù)將在2030-2050年耗光，圖像數(shù)據(jù)將在2060年左右耗光。但是語料耗光并不意味著大模型會(huì)停止前進(jìn)，目前許多模型對(duì)語料的訓(xùn)練并不充分。第二個(gè)限制：硬件提供的算力是有限的。由于硬件端的限制，許多大模型在“變大”方面受到限制。在固定算力的情況下，模型參數(shù)和訓(xùn)練數(shù)據(jù)需要較好配合才能使得模型性能發(fā)揮到最大。
　　Q：算力需求跑得多快？天花板在哪里？
　　A：訓(xùn)練階段的算力需求方面，約9.9個(gè)月翻倍。OpenAI在論文《Language Models are Few-Shot Learners》中公布了不同模型的計(jì)算次數(shù)，其中GPT-3計(jì)算次數(shù)大約3.14E+23次，GPT-3的計(jì)算次數(shù)大約等于“參數(shù)量（175B）訓(xùn)練集規(guī)模（300B tokens）”的6倍。但這種關(guān)系并不一定完全成立，例如在BERT的模型中這一比例也接近6左右，但是在T5的模型中僅為3左右。Jaime Sevilla、LennartHeim等研究者在《COMPUTETRENDSACROSSTHREEERAS OFMACHINELEARNIN》中，將數(shù)據(jù)集以對(duì)數(shù)線性回歸方式進(jìn)行研究，根據(jù)結(jié)果將機(jī)器學(xué)習(xí)訓(xùn)練算力分為3個(gè)時(shí)代：
　　前深度學(xué)習(xí)時(shí)代（1952-2010）：平均每21.3個(gè)月翻一倍。
　　深度學(xué)習(xí)時(shí)代（2010-2022）：平均每5.7個(gè)月翻一倍。
　　大模型時(shí)代（2015-2022）：平均9.9個(gè)月翻一倍。
　　但我們認(rèn)為這一測(cè)算傾向于低估算力需求的成長(zhǎng)速度。《COMPUTETRENDSACROSSTHREEERASOFMACHINELEARNIN》發(fā)布時(shí)間在2022年中，彼時(shí)GPT-3相對(duì)于BERT而言并無顯著優(yōu)勢(shì)。ChatGPT發(fā)布時(shí)間在2022年底，并且在終端用戶中取得了良好的反響，我們認(rèn)為這至少是一次中等規(guī)模的產(chǎn)業(yè)革命。在此催化下，大模型路線的可行性已被驗(yàn)證，算力翻倍的時(shí)間或?qū)@著縮短，低于9.9個(gè)月。
　　推理階段的算力需求方面，模型本身參數(shù)量及接入人數(shù)是兩個(gè)顯著變量。從模型參數(shù)來看，初代GPT到GPT-2、GPT-2到GPT-3的模型參數(shù)量分別增加15、100倍左右，GPT4的參數(shù)量并未公開，但由于GPT-3參數(shù)量已經(jīng)達(dá)到1750億，我們認(rèn)為從GPT-2到GPT-3這樣兩個(gè)數(shù)量級(jí)的增長(zhǎng)已很難復(fù)刻，但仍可以推測(cè)參數(shù)量仍在快速增長(zhǎng)。從接入用戶看，OpenAI的訪問次數(shù)迅猛提升。據(jù)similarweb數(shù)據(jù)，三月OpenAI訪問次數(shù)為1.64B次，5月約為1.86B次。盡管增勢(shì)在不斷放緩，但我們也需考慮到兩方面因素：第一，時(shí)間縱向上看，GPT-4并不是完美的，模型本身也在不斷成長(zhǎng)；第二，地區(qū)橫向上看，持續(xù)不斷的大模型正在推出。
　　大模型數(shù)量方面，不斷有新的大模型在推出，且隨著投資的增加，模型訓(xùn)練時(shí)間有望不斷縮減。越來越多的大模型正在不斷推出，這些模型除了越來越大以外，模型的推出節(jié)點(diǎn)也在變得密集。從Wayne XinZhao等人的統(tǒng)計(jì)結(jié)果來看，大模型的參數(shù)量、預(yù)訓(xùn)練數(shù)據(jù)規(guī)模不斷增長(zhǎng)。參數(shù)方面，2023年華為推出的盤古-Σ達(dá)到1085B（1萬億），而數(shù)據(jù)量方面也達(dá)到了329B tokens。研究機(jī)構(gòu)epochai對(duì)訓(xùn)練模型所需的時(shí)間進(jìn)行了測(cè)算，考慮了三個(gè)變量，分別為硬件改善、算法改善和資本增加，發(fā)現(xiàn)在三個(gè)因素共振的情況下，訓(xùn)練模型的最佳時(shí)間區(qū)間從3.55年縮短至2.52個(gè)月。我們認(rèn)為，在ChatGPT取得成功以來，各國(guó)各大廠已足夠重視大模型的發(fā)展，在上述三個(gè)變量中，硬件性能提升主要取決于相關(guān)大廠的產(chǎn)品迭代，而算法和預(yù)算均有望靠人力投入和資本開支在

相關(guān)行業(yè)報(bào)告

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频