玄幻小说排行榜,大主宰天蚕土豆,性爱有声小说在线收听

>> 華泰證券-金工深度研究-“GPT如?！保篟AG與代碼復(fù)現(xiàn)-240506

上傳日期：	2024/5/6	大?。?/td>	2514KB
格式：	pdf 共19頁(yè)	來(lái)源：	華泰證券
評(píng)級(jí)：	--	作者：	林曉明,何康
下載權(quán)限：	此報(bào)告為加密報(bào)告

人工智能系列之77：基于GPT和RAG技術(shù)的代碼復(fù)現(xiàn)系統(tǒng)
　　本文探索大語(yǔ)言模型在量化研究領(lǐng)域中進(jìn)行代碼復(fù)現(xiàn)的實(shí)際應(yīng)用。基于GPT-4系列模型和RAG技術(shù)，本文構(gòu)建了一個(gè)完善且易用的代碼復(fù)現(xiàn)框架，我們稱之為“GPT如?！?。在框架內(nèi)部，GPT多模態(tài)模型提供了提取圖片語(yǔ)義信息的能力，RAG模塊則有效支持海量文檔的切分與檢索，為大模型提供外部知識(shí)庫(kù)，基于此，“GPT如?！蹦軌蚋鶕?jù)輸入的圖片或PDF文檔，準(zhǔn)確提取與代碼復(fù)現(xiàn)任務(wù)相關(guān)的信息，并進(jìn)行代碼自動(dòng)化生成。測(cè)試結(jié)果顯示，“GPT如海”能較準(zhǔn)確地復(fù)現(xiàn)因子計(jì)算和人工智能量化策略代碼。
　　多模態(tài)大語(yǔ)言模型：勾勒?qǐng)D片中蘊(yùn)含的語(yǔ)義信息
　　傳統(tǒng)的大語(yǔ)言模型僅能處理單一模態(tài)的數(shù)據(jù)，例如文本，而多模態(tài)大模型擁有多模態(tài)感知和生成能力，例如圖像、語(yǔ)音和視頻，在交互性上更貼近通用人工智能的愿景。近年來(lái)，多模態(tài)大模型已經(jīng)得到了長(zhǎng)足的發(fā)展，目前多模態(tài)大模型已經(jīng)具備同時(shí)感知文本、圖像、音頻的能力，并且逐漸發(fā)展出生成多模態(tài)內(nèi)容的能力。在量化研究領(lǐng)域中，研究報(bào)告同樣蘊(yùn)含較為豐富的多模態(tài)數(shù)據(jù)，包括文本和圖像數(shù)據(jù)，在多模態(tài)大語(yǔ)言模型圖像感知能力的加持下，代碼復(fù)現(xiàn)系統(tǒng)可能會(huì)更具準(zhǔn)確性與實(shí)用性。
　　檢索增強(qiáng)生成：為大語(yǔ)言模型披上知識(shí)之鎧
　　RAG（Retrieval-Augmented Generation，檢索增強(qiáng)生成）是一種通過(guò)使用外部來(lái)源事實(shí)構(gòu)建向量知識(shí)庫(kù)，用于提升生成式人工智能準(zhǔn)確性和可靠性的技術(shù)。具體而言，在大模型生成內(nèi)容時(shí)，RAG將首先在外部知識(shí)庫(kù)中檢索相關(guān)信息，隨后依據(jù)相關(guān)信息大模型將生成更為準(zhǔn)確的回答?；诳呻S時(shí)更新的外部知識(shí)庫(kù)，RAG在有效提升大模型生成內(nèi)容的時(shí)效性與準(zhǔn)確性的同時(shí)，降低了大模型產(chǎn)生“幻覺(jué)”現(xiàn)象的可能性。對(duì)于代碼復(fù)現(xiàn)系統(tǒng)，RAG能支撐海量文檔并提供高效信息檢索，為代碼生成提供信息依據(jù)。
　　“GPT如?！笨蓮?fù)現(xiàn)因子計(jì)算和人工智能量化策略代碼
　　我們針對(duì)不同應(yīng)用場(chǎng)景設(shè)計(jì)了兩套代碼復(fù)現(xiàn)模板，分別是因子代碼復(fù)現(xiàn)和人工智能量化策略代碼復(fù)現(xiàn)。對(duì)于因子代碼復(fù)現(xiàn)場(chǎng)景，測(cè)試結(jié)果顯示“GPT如?！蹦軌蜉^準(zhǔn)確地提取出圖片或PDF文檔中的因子表達(dá)式以及因子構(gòu)建步驟，并能進(jìn)一步以此為基礎(chǔ)構(gòu)建因子計(jì)算代碼；對(duì)于人工智能量化策略復(fù)現(xiàn)場(chǎng)景，測(cè)試結(jié)果顯示，“GPT如海”能夠較準(zhǔn)確地提取出人工智能量化策略的構(gòu)建步驟和細(xì)節(jié)參數(shù)，并依次輸出數(shù)據(jù)集構(gòu)建、模型架構(gòu)和模型訓(xùn)練的.py代碼，在代碼細(xì)節(jié)上，我們觀察到“GPT如海”能夠敏銳捕捉到策略構(gòu)建的細(xì)節(jié)，例如損失函數(shù)設(shè)計(jì)等，盡管這些細(xì)節(jié)信息散布在文章各處。
　　多模型復(fù)現(xiàn)效果對(duì)比：小模型也可“納須彌于芥子”
　　在大模型如火如荼的發(fā)展進(jìn)程中，專為響應(yīng)大模型落地需求的小型大語(yǔ)言模型也漸為興盛。我們簡(jiǎn)易對(duì)比了GPT-4、通義千問(wèn)（Qwen 1.5，7B）和Llama3（8B）的代碼生成效果，在不同評(píng)價(jià)維度上，三個(gè)模型展現(xiàn)出差異性特征，例如GPT-4并不嚴(yán)格遵守代碼模板，而通義千問(wèn)和Llama3較為遵守代碼模板?？陀^而言，通義千問(wèn)和Llama3以小參數(shù)體量博得不錯(cuò)的代碼生成效果，體現(xiàn)出小型模型“納須彌于芥子”的潛力。
　　風(fēng)險(xiǎn)提示：大模型存在幻覺(jué)現(xiàn)象，模型生成結(jié)果可能不符合事實(shí)。大模型生成的代碼可能存在錯(cuò)誤，使用需謹(jǐn)慎。大模型提取信息可能存在遺漏。大模型訓(xùn)練集廣泛，可能存在過(guò)擬合風(fēng)險(xiǎn)。
　　
　　

相關(guān)研報(bào)

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频