>> 安信證券-計(jì)算機(jī)行業(yè)周報(bào):計(jì)算機(jī)視角解讀ChatGPT投資機(jī)會(huì)-230206
| 上傳日期: |
2023/2/6 |
大?。?/td>
| 1442KB |
| 格式: |
pdf 共12頁 |
來源: |
安信證券 |
| 評(píng)級(jí): |
領(lǐng)先大市 |
作者: |
趙陽,夏瀛韜 |
| 行業(yè)名稱: |
計(jì)算機(jī) |
| 下載權(quán)限: |
無限制-登錄即可下載 |
|
|
源起:從GPT-1到ChatGPT,商用化進(jìn)程逐漸開啟 從GPT-1到GPT-3.5,模型持續(xù)迭代。GPT(Generative Pre-Trained Transformer)系列是OpenAI公司的一系列預(yù)訓(xùn)練模型,通過Transformer為基礎(chǔ)模型,使用預(yù)訓(xùn)練技術(shù)得到通用的文本模型。目前已經(jīng)公布論文的有文本預(yù)訓(xùn)練GPT-1,GPT-2,GPT-3,以及圖像預(yù)訓(xùn)練iGPT,而ChatGPT和今年年初公布的InstructGPT是在GPT-4之前發(fā)布的預(yù)熱模型,也被叫做GPT-3.5。ChatGPT和InstructGPT在模型結(jié)構(gòu),訓(xùn)練方式上都完全一致,即都使用了指示學(xué)習(xí)和人工反饋的強(qiáng)化學(xué)習(xí)來指導(dǎo)模型的訓(xùn)練,它們不同的僅僅是采集數(shù)據(jù)的方式上有所差異。與之前的模型相比,ChatGPT做到了在內(nèi)容生成上的有用性,真實(shí)性和無害性,實(shí)現(xiàn)了算法和用戶體驗(yàn)上的創(chuàng)新。 微軟全線產(chǎn)品整合,ChatGPT開啟商用化進(jìn)程。OpenAI公司宣布推出ChatGPT的新訂閱計(jì)劃,起價(jià)為每月20美元,可以享受更快的響應(yīng)時(shí)間和優(yōu)先訪問。2月2日,微軟CEO宣布繼搜索引擎必應(yīng)、Office辦公軟件之后,將在云計(jì)算平臺(tái)Azure中整合ChaGPT,標(biāo)志著微軟有望實(shí)現(xiàn)ChatGPT在全線產(chǎn)品中的整合。我們認(rèn)為ChatGPT的商用化進(jìn)程逐漸開啟。 技術(shù):預(yù)訓(xùn)練模型+人工精標(biāo)+強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)NLP技術(shù)創(chuàng)新 從技術(shù)角度來看,ChatGPT的模型實(shí)現(xiàn)主要分為三個(gè)步驟,合稱為RLHF(Reinforcement Learning by Human Feedback)技術(shù): 1)SFT(Supervised Fine Tuning):基于GPT-3的預(yù)訓(xùn)練模型,采集新的數(shù)據(jù)用GPT-3的訓(xùn)練方式對(duì)模型進(jìn)行微調(diào),這些數(shù)據(jù)一部分來自使用OpenAI的PlayGround用戶,另一部分來自O(shè)penAI雇傭的40名標(biāo)注工(labeler); 2)訓(xùn)練RM(Reword Model):在采樣的輸入語句中,進(jìn)行前向推理獲得多個(gè)模型輸出結(jié)果,通過人工標(biāo)注進(jìn)行這些輸出結(jié)果的排序打標(biāo)。最終這些標(biāo)注數(shù)據(jù)用來訓(xùn)練Reward獎(jiǎng)勵(lì)模型。通過人工標(biāo)注的方式來提供這個(gè)獎(jiǎng)勵(lì),可以給那些涉及偏見的生成內(nèi)容更低的分從而鼓勵(lì)模型不去生成這些人類不喜歡的內(nèi)容,實(shí)現(xiàn)模型的有用、真實(shí)和無害。 3)PPO(Proximal Policy Optimization):隨機(jī)抽取新的樣本,用第二階段的Reward Model給產(chǎn)生的回答打分。這個(gè)分?jǐn)?shù)即回答的整體Reward,進(jìn)而將此Reward回傳,由此產(chǎn)生的策略梯度可以更新PPO模型參數(shù)。整個(gè)過程迭代數(shù)次直到模型收斂。強(qiáng)化學(xué)習(xí)算法可以通過調(diào)整模型參數(shù),使模型得到最大的獎(jiǎng)勵(lì)(Reward),最大獎(jiǎng)勵(lì)意味著此時(shí)的回復(fù)最符合人工的選擇取向 我們認(rèn)為ChatGPT的算法創(chuàng)新主要在于,采用人工標(biāo)注排序的方式構(gòu)建強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)模型,從而實(shí)現(xiàn)了預(yù)訓(xùn)練模型和強(qiáng)化學(xué)習(xí)的融合。另一方面,第一階段GPT-3的大模型以及高質(zhì)量人工標(biāo)注數(shù)據(jù)的微調(diào)也促使了模型更加有效。 投資機(jī)會(huì):布局NLP算法+數(shù)據(jù)標(biāo)注+算力設(shè)施 從對(duì)于ChatGPT技術(shù)上的分析,我們可以看到自然語言處理技術(shù)的持續(xù)迭代升級(jí),對(duì)應(yīng)到當(dāng)前市場(chǎng)來看,我們認(rèn)為主要的發(fā)展方向和投資機(jī)會(huì)在于三個(gè)方向: 1)NLP技術(shù):由于ChatGPT主要基于自然語言處理,因?yàn)樵贜LP領(lǐng)域沉淀較多的企業(yè)有望率先實(shí)現(xiàn)功能的部分復(fù)現(xiàn),建議關(guān)注科大訊飛、拓爾思。 2)數(shù)據(jù)標(biāo)注:在ChatGPT的訓(xùn)練過程中,加大了人工標(biāo)注的力度和精度,代表著未來在人工智能領(lǐng)域,優(yōu)質(zhì)的數(shù)據(jù)源和強(qiáng)大的標(biāo)注能力將成為行業(yè)的基礎(chǔ)設(shè)施,利好人工智能數(shù)據(jù)標(biāo)注企業(yè)如海天瑞聲。 3)算力設(shè)施:我們可以看到ChatGPT主要源于GPT-3的預(yù)訓(xùn)練模型,而GPT-3相比于此前的模型,最大的不同在于模型體量的大幅提升,根據(jù)OpenAI的數(shù)據(jù),GPT-3的參數(shù)量達(dá)到1750億個(gè),訓(xùn)練數(shù)據(jù)量達(dá)到45TB,而GPT-2參數(shù)僅有15億個(gè),40GB數(shù)據(jù)。因此,我們認(rèn)為人工智能的跨越式發(fā)展,將成為算力流量消耗的重要驅(qū)動(dòng)力,未來數(shù)據(jù)中心和相關(guān)的配套產(chǎn)業(yè)有望實(shí)現(xiàn)更好增長(zhǎng),建議關(guān)注潤(rùn)澤科技等。 建議關(guān)注 基礎(chǔ)工具:普源精電-U、鼎陽科技、坤恒順維、霍萊沃、概倫電子、華大九天。 智能汽車:德賽西威、中科創(chuàng)達(dá)、四維圖新、道通科技、虹軟科技、萬集科技。 工業(yè)軟件:寶信軟件、中望軟件、中控技術(shù)、賽意信息、能科科技、鼎捷軟件。 數(shù)字能源:朗新科技、國(guó)能日新、南網(wǎng)科技、龍軟科技、國(guó)網(wǎng)信通、遠(yuǎn)光軟件。 人工智能:科大訊飛、海康威視、大華股份、奧普特、商湯-W、寒武紀(jì)。 網(wǎng)絡(luò)安全:深信服、安恒信息、啟明星辰、天融信、奇安信-U、信安世紀(jì)。 風(fēng)險(xiǎn)提示 1)疫情加劇降低企業(yè)信息化支出;2)財(cái)政與貨幣政策低于預(yù)期;3)供應(yīng)鏈波動(dòng)加大,影響科技產(chǎn)業(yè)發(fā)展。
|
|