好看的小说君子以泽,欢乐颂,完美世界前传下载

>> 中信證券-前瞻研究全球人工智能AI行業(yè)系列報告3：Chat-GPT對搜索引擎行業(yè)意味著什么-230206

上傳日期：	2023/2/6	大?。?/td>	1484KB
格式：	pdf 共16頁	來源：	中信證券
評級：	--	作者：	許英博,陳俊云,賈凱方
下載權限：	此報告為加密報告

伴隨ChatGPT在全球市場的流行，其在內容深度搜索中的突出表現(xiàn)引發(fā)了市場對其是否能替代傳統(tǒng)搜索引擎的廣泛討論。我們認為ChatGPT在中短期內無法完全取代傳統(tǒng)搜索引擎，也較難改變當前全球搜索引擎市場競爭格局，但料將會加速搜索引擎演化進程，并在中期形成以傳統(tǒng)搜索為主、ChatGPT類模型為輔的新搜索引擎形態(tài)，相應帶來谷歌等傳統(tǒng)搜索引擎巨頭AI投入大幅增加。ChatGPT優(yōu)化了問題與答案生成間的匹配精準度，用戶體驗遠好于傳統(tǒng)搜索引擎。但背后系列短板亦阻礙了其在中短期對傳統(tǒng)搜索引擎的可能取代：1）受制于模型訓練方式，數(shù)據(jù)難以實時更新。2）單次搜索成本過于高昂，我們推算生成一條信息的成本在1.3美分左右，是目前傳統(tǒng)搜索引擎的3-4倍。3）統(tǒng)計學模型產生的內容真假混雜，用戶難以辨別。其中1、3點有望在技術端優(yōu)化后，通過結合傳統(tǒng)搜索引擎的方式部分解決問題，成本問題中短期內或只能等待硬件成本的繼續(xù)下降。ChatGPT產生的鯰魚效應，料將推動全球AI產業(yè)化進程的全面提速，以及AI生成內容時代的全面到來。
　　▍報告緣起：ChatGPT在問答環(huán)節(jié)表現(xiàn)優(yōu)異，引起市場對其是否能替代傳統(tǒng)搜索引擎的廣泛討論。OpenAI團隊最新公布的語言模型ChatGPT于2022年11月30日向社區(qū)發(fā)布測試，在上線兩個月不到的時間內就擁有了超過1000萬DAU，MAU突破20萬。從社區(qū)用戶的測試結果看，相比于前一代的GPT3，ChatGPT以對話為載體，可以回答多種多樣的日常問題，對于多輪對話歷史的記憶能力和篇幅增強。與GPT-3等大模型相比，ChatGPT回答更全面，可以多角度全方位進行回答和闡述，相較以往的大模型，知識被挖掘得更充分。ChatGPT在內容深度搜索中的強勢表現(xiàn)引發(fā)了市場對其是否能替代傳統(tǒng)搜索引擎的爭論，本篇報告將對ChatGPT及其背后的技術是否能替代傳統(tǒng)搜索引擎的市場以及會對傳統(tǒng)搜索引擎巨頭帶來什么改變展開一系列分析。
　　▍ChatGPT較傳統(tǒng)搜索：在GPT3.5基礎上結合人類反饋強化學習進行訓練，優(yōu)化了問題與答案生成間的匹配精準度。OpenAI團隊從GPT3.5系列中的一個模型進行微調，使用人類反饋強化學習(RLHF)訓練。首先使用了人類標注師撰寫約1.2w-1.5w條問答數(shù)據(jù)，并用其作為基礎數(shù)據(jù)預訓練。隨后讓預訓練好的模型（SFT）針對新問題列表生成若干條回答，并讓人類標注師對這些回答進行排序。這些回答的排名內容將以配對比較的方式生成一個新的獎勵模型（RM）。最后讓獎勵模型在更大的數(shù)據(jù)集上重新訓練SFT，并將最后兩個步驟反復迭代以獲得最終的模型。經過上述步驟，我們發(fā)現(xiàn)最終呈現(xiàn)出的ChatGPT模型在對問題意圖與答案的一致性上大幅提高，根據(jù)Deepmind信息，相較于傳統(tǒng)搜索引擎提供內容相關頁面鏈接，ChatGPT可以直接生成面向問題的高完成度回答，并能夠提供回答內容的相關引用鏈接（目前測試版本尚未開發(fā)這一功能）。此外針對開放式問題，ChatGPT也可以通過匹配網絡中的數(shù)據(jù)生成較為完整的答案，在處理知識類以及創(chuàng)意類的問題時，ChatGPT提供的搜索體驗遠勝于目前的傳統(tǒng)搜索引擎。
　　▍ChatGPT取代傳統(tǒng)搜索引擎：中短期可能性較低。盡管ChatGPT能大幅優(yōu)化用戶的搜索體驗，但要取代傳統(tǒng)搜索引擎仍然面臨幾個關鍵技術瓶頸。1)數(shù)據(jù)的實時性問題。目前英文版本的ChatGPT數(shù)據(jù)截至2021年，而中文版本的ChatGPT數(shù)據(jù)截至2020年，數(shù)據(jù)庫版本滯后的主要原因是由于語言類大模型的技術限制。ChatGPT目前的在GPT大模型上加入標注數(shù)據(jù)訓練模式讓實時數(shù)據(jù)的引入非常困難，如果要重新預訓練模型，我們估計每次預訓練需要用到1000塊以上的英偉達A100顯卡工作半個月至一個月的時間，成本在百萬美元以上。而如果采用使用微調的方式專門訓練新知識，會導致新知識的在模型內的權重過高，頻繁的微調也會導致模型“遺忘”舊的知識。2）數(shù)據(jù)的真實性仍不足可靠。在大量的測試后我們發(fā)現(xiàn)，雖然ChatGPT回答問題的準確性有所提高，但如果提出的問題較為模糊或者本身包含部分錯誤信息在內，模型有可能以“一本正經”的語氣生成完全錯誤甚至憑空捏造的回答。真假答案的混雜會讓用戶在需要對專業(yè)性問題尋求答案時產生嚴重的困擾，這也是目前語言類大模型普遍存在的問題。根據(jù)Meta首席AI科學家LeCun的推特推文，2022年11月幾乎同一時間上線的Meta服務科研領域的語言類大模型Galactica就因為真假答案混雜的問題，測試僅僅3天就被用戶投訴下線。3）模型在線推理端成本高昂。根據(jù)模型的現(xiàn)有數(shù)據(jù)，我們假設每次生成的回答長度平均為50個詞，使用8x英偉達A100用于推理的情況下，我們估算ChatGPT每一次生成答案的成本約為1.3美分，約為谷歌搜索引擎每次搜索成本的3倍。如果每天面對數(shù)以億計用戶的搜索請求，如此高昂的成本是公司所不能接受的，中短期內完全取代傳統(tǒng)搜索引擎在商業(yè)模式上無法做到。
　　▍搜索引擎產品演變：傳統(tǒng)搜索引擎為主+大語言模型為輔相結合。目前ChatGPT的技術路徑難以在較短時間內解決搜索成本的問題，因此從分場景限制用量的思路出發(fā)，我們認為中短期內ChatGPT可以通過部分技術改進輔助傳統(tǒng)搜索引擎實現(xiàn)

相關研報

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频