久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频

研報(bào)下載就選股票報(bào)告網(wǎng)
您好,歡迎來(lái)到股票分析報(bào)告網(wǎng)!登錄   忘記密碼   注冊(cè)
>> 華泰證券-計(jì)算機(jī)行業(yè)GPT產(chǎn)業(yè)復(fù)盤(2019):大容量路線-230214
上傳日期:   2023/2/15 大?。?/td>   2386KB
格式:   pdf  共13頁(yè) 來(lái)源:   華泰證券
評(píng)級(jí):   增持 作者:   謝春生
行業(yè)名稱:   計(jì)算機(jī)
下載權(quán)限:   此報(bào)告為加密報(bào)告
溯源GPT發(fā)展:2019年“三足鼎立”,GPT明確大容量路線
  回顧基于Transformer的預(yù)訓(xùn)練大語(yǔ)言模型的發(fā)展,可以看到2019年是預(yù)訓(xùn)練大語(yǔ)言模型的技術(shù)架構(gòu)演進(jìn)之年。以GPT、BERT、T5為代表的三類典型預(yù)訓(xùn)練語(yǔ)言模型,分別采用了只有解碼器、只有編碼器、同時(shí)擁有解碼器-編碼器的技術(shù)架構(gòu),分別搭建了自回歸語(yǔ)言模型、自編碼語(yǔ)言模型以及序列到序列模型。2019年GPT-2論文的正式發(fā)表,有力驗(yàn)證了“更多訓(xùn)練數(shù)據(jù)+更大網(wǎng)絡(luò)參數(shù),也可以有效提升預(yù)訓(xùn)練模型的泛化能力”,自此開啟了GPT模型向更大容量擴(kuò)展的技術(shù)發(fā)展路徑。因此,2019年也可以稱得上是GPT系列模型的技術(shù)路線明確之年,是GPT模型演化的重要時(shí)間節(jié)點(diǎn)。
  GPT-2:具備多任務(wù)學(xué)習(xí)、大模型容量、無(wú)微調(diào)建模三大特點(diǎn)
  GPT-2模型具有多任務(wù)學(xué)習(xí)、大模型容量、無(wú)微調(diào)建模三大特點(diǎn)。1)多任務(wù)學(xué)習(xí):GPT-2在預(yù)訓(xùn)練階段采用多任務(wù)學(xué)習(xí)方式,不僅有效提升了學(xué)習(xí)效率,而且通過擴(kuò)大訓(xùn)練數(shù)據(jù)、隱式數(shù)據(jù)增強(qiáng)有效強(qiáng)化了模型的泛化能力;2)大模型容量:GPT-2最大層數(shù)達(dá)48層,最大詞向量長(zhǎng)度達(dá)1,600,由于模型層數(shù)越多,完成的非線性映射就越復(fù)雜,詞向量長(zhǎng)度越長(zhǎng),擬合的情況越復(fù)雜,因此GPT-2模型具有較強(qiáng)的學(xué)習(xí)能力;3)無(wú)微調(diào)建模:GPT-2聚焦模型的泛化能力,旨在通過多任務(wù)學(xué)習(xí)訓(xùn)練一個(gè)模型,訓(xùn)練好的這一個(gè)模型可以解決多類任務(wù),因此取消了fine-tune層,不再針對(duì)不同任務(wù)進(jìn)行微調(diào)。
  GPT-2 VSGPT-1:從“專才”到“通才”,大容量路線確定
  較GPT-1而言,GPT-2的變化主要體現(xiàn)在四個(gè)方面:取消fine-tune訓(xùn)練、增加數(shù)據(jù)集(GPT-2使用WebText數(shù)據(jù)集,累計(jì)大小約40GB)、增加網(wǎng)絡(luò)參數(shù)(最大模型參數(shù)量15億)、調(diào)整Transformer結(jié)構(gòu)。GPT-2取消fine-tune,采用大規(guī)模數(shù)據(jù)集+大容量模型的技術(shù)方案,成功訓(xùn)練了GPT模型的“通才”能力,“一個(gè)模型解決多類任務(wù)”構(gòu)想的有效性得到了重要的實(shí)驗(yàn)驗(yàn)證。同時(shí)GPT-2證明隨著模型的參數(shù)變多,模型的表現(xiàn)呈現(xiàn)對(duì)數(shù)線性上升,模型的泛化能力仍具有上升空間??偨Y(jié)來(lái)看,GPT-2模型的成功演繹是后續(xù)GPT模型向更大容量、更大訓(xùn)練集演進(jìn)的重要基礎(chǔ)。
  GPTVSBERT/T5:自回歸語(yǔ)言模型更具生成式優(yōu)勢(shì)
  GPT-2、BERT、T5均基于Transformer模型,但在模塊組成、模型參數(shù)、預(yù)訓(xùn)練方式上有所不同。1)GPT-2:Transformer只有Decoder(解碼器),為自回歸模型(Auto-regressive models);2)BERT:Transformer只有Encoder(編碼器),為自編碼模型(Auto-encoding models);3)T5:Transformer同時(shí)包含Encoder、Decoder兩部分,為序列到序列模型(Sequence-to-sequence model)。對(duì)比來(lái)看,GPT的自回歸預(yù)訓(xùn)練在文本生成、對(duì)話問答等從左向右的生成任務(wù)上具備天然優(yōu)勢(shì)。
  風(fēng)險(xiǎn)提示:宏觀經(jīng)濟(jì)波動(dòng);下游需求不及預(yù)期;本報(bào)告內(nèi)容均基于公開客觀數(shù)據(jù)整理,不代表研究覆蓋和推薦。
  
 
Copyright ? 2005 - 2021 Nxny.com All Rights Reserved 備案號(hào):蜀ICP備15031742號(hào)-1