久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频

研報下載就選股票報告網
您好,歡迎來到股票分析報告網!登錄   忘記密碼   注冊
>> 中信證券-前瞻研究全球人工智能AI行業(yè)系列報告3:Chat-GPT對搜索引擎行業(yè)意味著什么-230206
上傳日期:   2023/2/6 大?。?/td>   1484KB
格式:   pdf  共16頁 來源:   中信證券
評級:   -- 作者:   許英博,陳俊云,賈凱方
下載權限:   此報告為加密報告
伴隨ChatGPT在全球市場的流行,其在內容深度搜索中的突出表現(xiàn)引發(fā)了市場對其是否能替代傳統(tǒng)搜索引擎的廣泛討論。我們認為ChatGPT在中短期內無法完全取代傳統(tǒng)搜索引擎,也較難改變當前全球搜索引擎市場競爭格局,但料將會加速搜索引擎演化進程,并在中期形成以傳統(tǒng)搜索為主、ChatGPT類模型為輔的新搜索引擎形態(tài),相應帶來谷歌等傳統(tǒng)搜索引擎巨頭AI投入大幅增加。ChatGPT優(yōu)化了問題與答案生成間的匹配精準度,用戶體驗遠好于傳統(tǒng)搜索引擎。但背后系列短板亦阻礙了其在中短期對傳統(tǒng)搜索引擎的可能取代:1)受制于模型訓練方式,數(shù)據(jù)難以實時更新。2)單次搜索成本過于高昂,我們推算生成一條信息的成本在1.3美分左右,是目前傳統(tǒng)搜索引擎的3-4倍。3)統(tǒng)計學模型產生的內容真假混雜,用戶難以辨別。其中1、3點有望在技術端優(yōu)化后,通過結合傳統(tǒng)搜索引擎的方式部分解決問題,成本問題中短期內或只能等待硬件成本的繼續(xù)下降。ChatGPT產生的鯰魚效應,料將推動全球AI產業(yè)化進程的全面提速,以及AI生成內容時代的全面到來。
  ▍報告緣起:ChatGPT在問答環(huán)節(jié)表現(xiàn)優(yōu)異,引起市場對其是否能替代傳統(tǒng)搜索引擎的廣泛討論。OpenAI團隊最新公布的語言模型ChatGPT于2022年11月30日向社區(qū)發(fā)布測試,在上線兩個月不到的時間內就擁有了超過1000萬DAU,MAU突破20萬。從社區(qū)用戶的測試結果看,相比于前一代的GPT3,ChatGPT以對話為載體,可以回答多種多樣的日常問題,對于多輪對話歷史的記憶能力和篇幅增強。與GPT-3等大模型相比,ChatGPT回答更全面,可以多角度全方位進行回答和闡述,相較以往的大模型,知識被挖掘得更充分。ChatGPT在內容深度搜索中的強勢表現(xiàn)引發(fā)了市場對其是否能替代傳統(tǒng)搜索引擎的爭論,本篇報告將對ChatGPT及其背后的技術是否能替代傳統(tǒng)搜索引擎的市場以及會對傳統(tǒng)搜索引擎巨頭帶來什么改變展開一系列分析。
  ▍ChatGPT較傳統(tǒng)搜索:在GPT3.5基礎上結合人類反饋強化學習進行訓練,優(yōu)化了問題與答案生成間的匹配精準度。OpenAI團隊從GPT3.5系列中的一個模型進行微調,使用人類反饋強化學習(RLHF)訓練。首先使用了人類標注師撰寫約1.2w-1.5w條問答數(shù)據(jù),并用其作為基礎數(shù)據(jù)預訓練。隨后讓預訓練好的模型(SFT)針對新問題列表生成若干條回答,并讓人類標注師對這些回答進行排序。這些回答的排名內容將以配對比較的方式生成一個新的獎勵模型(RM)。最后讓獎勵模型在更大的數(shù)據(jù)集上重新訓練SFT,并將最后兩個步驟反復迭代以獲得最終的模型。經過上述步驟,我們發(fā)現(xiàn)最終呈現(xiàn)出的ChatGPT模型在對問題意圖與答案的一致性上大幅提高,根據(jù)Deepmind信息,相較于傳統(tǒng)搜索引擎提供內容相關頁面鏈接,ChatGPT可以直接生成面向問題的高完成度回答,并能夠提供回答內容的相關引用鏈接(目前測試版本尚未開發(fā)這一功能)。此外針對開放式問題,ChatGPT也可以通過匹配網絡中的數(shù)據(jù)生成較為完整的答案,在處理知識類以及創(chuàng)意類的問題時,ChatGPT提供的搜索體驗遠勝于目前的傳統(tǒng)搜索引擎。
  ▍ChatGPT取代傳統(tǒng)搜索引擎:中短期可能性較低。盡管ChatGPT能大幅優(yōu)化用戶的搜索體驗,但要取代傳統(tǒng)搜索引擎仍然面臨幾個關鍵技術瓶頸。1)數(shù)據(jù)的實時性問題。目前英文版本的ChatGPT數(shù)據(jù)截至2021年,而中文版本的ChatGPT數(shù)據(jù)截至2020年,數(shù)據(jù)庫版本滯后的主要原因是由于語言類大模型的技術限制。ChatGPT目前的在GPT大模型上加入標注數(shù)據(jù)訓練模式讓實時數(shù)據(jù)的引入非常困難,如果要重新預訓練模型,我們估計每次預訓練需要用到1000塊以上的英偉達A100顯卡工作半個月至一個月的時間,成本在百萬美元以上。而如果采用使用微調的方式專門訓練新知識,會導致新知識的在模型內的權重過高,頻繁的微調也會導致模型“遺忘”舊的知識。2)數(shù)據(jù)的真實性仍不足可靠。在大量的測試后我們發(fā)現(xiàn),雖然ChatGPT回答問題的準確性有所提高,但如果提出的問題較為模糊或者本身包含部分錯誤信息在內,模型有可能以“一本正經”的語氣生成完全錯誤甚至憑空捏造的回答。真假答案的混雜會讓用戶在需要對專業(yè)性問題尋求答案時產生嚴重的困擾,這也是目前語言類大模型普遍存在的問題。根據(jù)Meta首席AI科學家LeCun的推特推文,2022年11月幾乎同一時間上線的Meta服務科研領域的語言類大模型Galactica就因為真假答案混雜的問題,測試僅僅3天就被用戶投訴下線。3)模型在線推理端成本高昂。根據(jù)模型的現(xiàn)有數(shù)據(jù),我們假設每次生成的回答長度平均為50個詞,使用8x英偉達A100用于推理的情況下,我們估算ChatGPT每一次生成答案的成本約為1.3美分,約為谷歌搜索引擎每次搜索成本的3倍。如果每天面對數(shù)以億計用戶的搜索請求,如此高昂的成本是公司所不能接受的,中短期內完全取代傳統(tǒng)搜索引擎在商業(yè)模式上無法做到。
  ▍搜索引擎產品演變:傳統(tǒng)搜索引擎為主+大語言模型為輔相結合。目前ChatGPT的技術路徑難以在較短時間內解決搜索成本的問題,因此從分場景限制用量的思路出發(fā),我們認為中短期內ChatGPT可以通過部分技術改進輔助傳統(tǒng)搜索引擎實現(xiàn)
 
Copyright ? 2005 - 2021 Nxny.com All Rights Reserved 備案號:蜀ICP備15031742號-1

南宫市| 巴南区| 潮州市| 德兴市| 黔南| 栾城县| 栾川县| 祁阳县| 赫章县| 莲花县| 梅州市| 辽中县| 蚌埠市| 海盐县| 凌云县| 马尔康县| 曲阜市| 南宫市| 华安县| 阳信县| 孝感市| 米易县| 禹州市| 郧西县| 丘北县| 巴彦县| 汾西县| 酉阳| 衢州市| 孟州市| 无极县| 湘西| 榆林市| 开远市| 宣城市| 新津县| 阳高县| 毕节市| 昂仁县| 祁阳县| 汾西县|