>> 中信證券-科技行業(yè)前瞻研究重大事項(xiàng)點(diǎn)評(píng),Chat-GPT:對(duì)人工智能AI產(chǎn)業(yè)意味著什么?-221207
| 上傳日期: |
2022/12/7 |
大小: |
669KB |
| 格式: |
pdf 共5頁 |
來源: |
中信證券 |
| 評(píng)級(jí): |
-- |
作者: |
許英博,陳俊云,賈凱方 |
| 下載權(quán)限: |
此報(bào)告為加密報(bào)告,僅限高級(jí)會(huì)員查看 |
|
|
近日,由人工智能實(shí)驗(yàn)室OpenAI發(fā)布的對(duì)話式大型語言模型Chat-GPT獲得市場(chǎng)廣泛關(guān)注。測(cè)試反饋的結(jié)果顯示,相比于前一代的GPT-3,Chat-GPT給出的答案完成度很高,并能在專業(yè)領(lǐng)域內(nèi)形成具有一定創(chuàng)作性的回答。技術(shù)背景上,OpenAI團(tuán)隊(duì)從GPT-3.5系列中的一個(gè)模型進(jìn)行微調(diào),使用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)訓(xùn)練該模型。這種技術(shù)使用人類偏好作為獎(jiǎng)勵(lì)信號(hào)來微調(diào)模型,在此前的Transformer算法的基礎(chǔ)上又優(yōu)化了數(shù)據(jù)來源。與GPT-3相比,Chat-GPT測(cè)試所取得的進(jìn)步是明顯的,但這些進(jìn)步主要來自于數(shù)學(xué)層面上優(yōu)化帶來的匹配精準(zhǔn)度提高,而并非算法真正為AI帶來了邏輯性。更直觀的理解是,Chat-GPT“解鎖”了GPT-3已經(jīng)具備的能力,原先模型中真正使用到的計(jì)算和數(shù)據(jù)不到2%,這讓Chat-GPT成為一個(gè)AI技術(shù)應(yīng)用的成功范例。對(duì)產(chǎn)業(yè)界而言,Chat-GPT的成功意味著產(chǎn)業(yè)端算力與數(shù)據(jù)質(zhì)量重要性進(jìn)一步提升,人類反饋強(qiáng)化學(xué)習(xí)(RLHF)更強(qiáng)調(diào)數(shù)據(jù)質(zhì)量與算力,在未來Transformer發(fā)展的過程中將越來越重要,一味堆疊數(shù)據(jù)量的時(shí)代可能已經(jīng)過去。能夠完成數(shù)據(jù)閉環(huán)以及有著優(yōu)秀的數(shù)據(jù)自處理能力的企業(yè)預(yù)計(jì)將在未來AI模型發(fā)展的過程中更加受到青睞。場(chǎng)景落地端,根據(jù)模型現(xiàn)有的完成度,在垂直行業(yè)針對(duì)性地做人工反饋訓(xùn)練,就可以落地智能客服、問答產(chǎn)品,在toC場(chǎng)景中料將率先得到應(yīng)用。Chat-GPT的成功證明了Transformer模型并非陷入困境,AI模型&技術(shù)上持續(xù)的新突破,正驅(qū)動(dòng)全球AI產(chǎn)業(yè)進(jìn)入加速發(fā)展階段,疊加AI產(chǎn)業(yè)集群效應(yīng)的不斷凸顯,擁有完整數(shù)據(jù)閉環(huán)結(jié)構(gòu)、良好數(shù)據(jù)自處理能力的企業(yè)有望持續(xù)成為產(chǎn)業(yè)受益者。重點(diǎn)推薦:特斯拉、英偉達(dá)、AMD、高通等。 ▍事件背景:Chat-GPT模型獲得市場(chǎng)廣泛關(guān)注,對(duì)話類AI效果遠(yuǎn)超大眾預(yù)期。近日,由人工智能實(shí)驗(yàn)室OpenAI發(fā)布的對(duì)話式大型語言模型Chat-GPT引爆中文互聯(lián)網(wǎng)。Chat-GPT是OpenAI團(tuán)隊(duì)最新公布的語言模型,并于11月30日向社區(qū)發(fā)布測(cè)試。從測(cè)試反饋的結(jié)果看,相比于前一代的GPT-3,Chat-GPT給出的答案完成度很高,并能在專業(yè)領(lǐng)域內(nèi)形成具有一定創(chuàng)作性的回答,并且對(duì)于不同語言都能支持。Chat-GPT目前可以輕松與人類進(jìn)行專業(yè)性的對(duì)話,回答各種問題,無論是寫代碼改bug、回答科學(xué)問題,甚至給推特的發(fā)展提建議。這標(biāo)志著對(duì)話式AI開始能在大范圍、細(xì)粒度問題上給出普遍穩(wěn)妥的答案,并根據(jù)上下文形成一定的邏輯性。本篇報(bào)告將關(guān)注Chat-GPT背后的技術(shù)邏輯、對(duì)AI算法發(fā)展的整體影響以及產(chǎn)業(yè)化的落地可能性。 ▍Chat-GPT模型:在GPT-3.5的基礎(chǔ)上基于人類反饋學(xué)習(xí)進(jìn)行額外訓(xùn)練,給出了Transformer模型未來發(fā)展的一個(gè)可能解法。OpenAI團(tuán)隊(duì)從GPT-3.5系列中的一個(gè)模型進(jìn)行微調(diào),使用與InstructGPT相同的方法,使用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)訓(xùn)練該模型,并對(duì)數(shù)據(jù)收集設(shè)置相對(duì)做了優(yōu)化。人類反饋強(qiáng)化模型這一技術(shù),是OpenAI從2017開始發(fā)表論文的新領(lǐng)域。這種技術(shù)使用人類偏好作為獎(jiǎng)勵(lì)信號(hào)來微調(diào)模型,首先收集人工編寫演示數(shù)據(jù)集(包含兩種不同輸出類型的比較),然后在這個(gè)數(shù)據(jù)集上訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型(RM)來預(yù)測(cè)標(biāo)簽者更喜歡哪個(gè)輸出。最后,使用此RM作為獎(jiǎng)勵(lì)函數(shù)并微調(diào)這個(gè)GPT-3策略以使用PPO算法最大化此獎(jiǎng)勵(lì)。從測(cè)試的結(jié)果看,Chat-GPT能夠調(diào)用大量的專業(yè)數(shù)據(jù)庫,并用巧妙的語言連接句將他們拼合在一起,在回答問題時(shí),模型能根據(jù)上下文展現(xiàn)出一定的連貫性。在面對(duì)GPT-3束手無策的人稱代詞時(shí),Chat-GPT展現(xiàn)出了一定的邏輯能力。 ▍模型背后問題:并非底層技術(shù)上的革命性突破,產(chǎn)業(yè)端意義大于學(xué)術(shù)端意義。與GPT-3相比,Chat-GPT測(cè)試所取得的進(jìn)步是明顯的,但這些進(jìn)步主要來自于數(shù)學(xué)層面上的優(yōu)化帶來的結(jié)果匹配精準(zhǔn)度提高,而并非算法真正為AI帶來了邏輯性,也不是能夠從訓(xùn)練的數(shù)據(jù)中學(xué)習(xí)到新的知識(shí)。對(duì)于Chat-GPT相對(duì)于原先模型的進(jìn)步的一種更直觀的理解是,Chat-GPT“解鎖”了GPT-3已經(jīng)具備的能力,通過原先的提示工程難以激發(fā):這是因?yàn)橛?xùn)練程序相對(duì)于預(yù)訓(xùn)練期間學(xué)到的東西,新知識(shí)的連接能力有限。這一過程帶來了更好的結(jié)果匹配度來逼近人類思考所使用的邏輯,但并非給予了AI底層邏輯性的概念。從大量的測(cè)試結(jié)果能看出,Chat-GPT有時(shí)仍會(huì)寫出看似合理但不正確或荒謬的答案,以及幼兒都絕不會(huì)出現(xiàn)的邏輯性錯(cuò)誤。主要原因包括:(1)在面對(duì)邏輯性的指代,以及稍微復(fù)雜的句式,模型仍然難以分析出內(nèi)在的邏輯性關(guān)聯(lián);(2)訓(xùn)練模型更加謹(jǐn)慎導(dǎo)致它拒絕回答和逃避回答問題;(3)監(jiān)督訓(xùn)練會(huì)誤導(dǎo)模型,因?yàn)槔硐氲拇鸢溉Q于模型知道什么,而不是人類演示者知道什么。 ▍Chat-GPT對(duì)產(chǎn)業(yè)界的影響:底層算力、數(shù)據(jù)質(zhì)量重要性進(jìn)一步提升,toC端場(chǎng)景(智能客服等)料將率先迎來變革。1)人類反饋強(qiáng)化學(xué)習(xí)(RLHF)更強(qiáng)調(diào)數(shù)據(jù)質(zhì)量與算力,盡管相比于GPT-3,Chat-GPT削減了一部分的數(shù)據(jù)量,但對(duì)于余下的數(shù)據(jù)做了更好的優(yōu)化以及加入了人類反饋調(diào)節(jié)的獎(jiǎng)勵(lì)系統(tǒng)。數(shù)據(jù)質(zhì)量與大算力支撐下的獎(jiǎng)勵(lì)系統(tǒng)預(yù)計(jì)將在未來Transformer發(fā)展的過程中越來越重要,一味堆疊數(shù)據(jù)量的時(shí)代可能已經(jīng)過去。能夠完成數(shù)據(jù)閉
|
|