好看的玄幻小说,大主宰之灵路天蚕土豆

>> 華泰證券-計(jì)算機(jī)行業(yè)GPT產(chǎn)業(yè)復(fù)盤(2019)：大容量路線-230214

上傳日期：	2023/2/15	大?。?/td>	2386KB
格式：	pdf 共13頁(yè)	來(lái)源：	華泰證券
評(píng)級(jí)：	增持	作者：	謝春生
行業(yè)名稱：	計(jì)算機(jī)
下載權(quán)限：	此報(bào)告為加密報(bào)告

溯源GPT發(fā)展：2019年“三足鼎立”，GPT明確大容量路線
　　回顧基于Transformer的預(yù)訓(xùn)練大語(yǔ)言模型的發(fā)展，可以看到2019年是預(yù)訓(xùn)練大語(yǔ)言模型的技術(shù)架構(gòu)演進(jìn)之年。以GPT、BERT、T5為代表的三類典型預(yù)訓(xùn)練語(yǔ)言模型，分別采用了只有解碼器、只有編碼器、同時(shí)擁有解碼器-編碼器的技術(shù)架構(gòu)，分別搭建了自回歸語(yǔ)言模型、自編碼語(yǔ)言模型以及序列到序列模型。2019年GPT-2論文的正式發(fā)表，有力驗(yàn)證了“更多訓(xùn)練數(shù)據(jù)+更大網(wǎng)絡(luò)參數(shù)，也可以有效提升預(yù)訓(xùn)練模型的泛化能力”，自此開啟了GPT模型向更大容量擴(kuò)展的技術(shù)發(fā)展路徑。因此，2019年也可以稱得上是GPT系列模型的技術(shù)路線明確之年，是GPT模型演化的重要時(shí)間節(jié)點(diǎn)。
　　GPT-2：具備多任務(wù)學(xué)習(xí)、大模型容量、無(wú)微調(diào)建模三大特點(diǎn)
　　GPT-2模型具有多任務(wù)學(xué)習(xí)、大模型容量、無(wú)微調(diào)建模三大特點(diǎn)。1）多任務(wù)學(xué)習(xí)：GPT-2在預(yù)訓(xùn)練階段采用多任務(wù)學(xué)習(xí)方式，不僅有效提升了學(xué)習(xí)效率，而且通過擴(kuò)大訓(xùn)練數(shù)據(jù)、隱式數(shù)據(jù)增強(qiáng)有效強(qiáng)化了模型的泛化能力；2）大模型容量：GPT-2最大層數(shù)達(dá)48層，最大詞向量長(zhǎng)度達(dá)1,600，由于模型層數(shù)越多，完成的非線性映射就越復(fù)雜，詞向量長(zhǎng)度越長(zhǎng)，擬合的情況越復(fù)雜，因此GPT-2模型具有較強(qiáng)的學(xué)習(xí)能力；3）無(wú)微調(diào)建模：GPT-2聚焦模型的泛化能力，旨在通過多任務(wù)學(xué)習(xí)訓(xùn)練一個(gè)模型，訓(xùn)練好的這一個(gè)模型可以解決多類任務(wù)，因此取消了fine-tune層，不再針對(duì)不同任務(wù)進(jìn)行微調(diào)。
　　GPT-2 VSGPT-1：從“專才”到“通才”，大容量路線確定
　　較GPT-1而言，GPT-2的變化主要體現(xiàn)在四個(gè)方面：取消fine-tune訓(xùn)練、增加數(shù)據(jù)集（GPT-2使用WebText數(shù)據(jù)集，累計(jì)大小約40GB）、增加網(wǎng)絡(luò)參數(shù)（最大模型參數(shù)量15億）、調(diào)整Transformer結(jié)構(gòu)。GPT-2取消fine-tune，采用大規(guī)模數(shù)據(jù)集+大容量模型的技術(shù)方案，成功訓(xùn)練了GPT模型的“通才”能力，“一個(gè)模型解決多類任務(wù)”構(gòu)想的有效性得到了重要的實(shí)驗(yàn)驗(yàn)證。同時(shí)GPT-2證明隨著模型的參數(shù)變多，模型的表現(xiàn)呈現(xiàn)對(duì)數(shù)線性上升，模型的泛化能力仍具有上升空間?？偨Y(jié)來(lái)看，GPT-2模型的成功演繹是后續(xù)GPT模型向更大容量、更大訓(xùn)練集演進(jìn)的重要基礎(chǔ)。
　　GPTVSBERT/T5：自回歸語(yǔ)言模型更具生成式優(yōu)勢(shì)
　　GPT-2、BERT、T5均基于Transformer模型，但在模塊組成、模型參數(shù)、預(yù)訓(xùn)練方式上有所不同。1）GPT-2：Transformer只有Decoder（解碼器），為自回歸模型（Auto-regressive models）；2）BERT：Transformer只有Encoder（編碼器），為自編碼模型（Auto-encoding models）；3）T5：Transformer同時(shí)包含Encoder、Decoder兩部分，為序列到序列模型（Sequence-to-sequence model）。對(duì)比來(lái)看，GPT的自回歸預(yù)訓(xùn)練在文本生成、對(duì)話問答等從左向右的生成任務(wù)上具備天然優(yōu)勢(shì)。
　　風(fēng)險(xiǎn)提示：宏觀經(jīng)濟(jì)波動(dòng)；下游需求不及預(yù)期；本報(bào)告內(nèi)容均基于公開客觀數(shù)據(jù)整理，不代表研究覆蓋和推薦。
　　

相關(guān)行業(yè)報(bào)告

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频