>> 華泰證券-金工深度研究-“GPT如?!保篟AG與代碼復(fù)現(xiàn)-240506
| 上傳日期: |
2024/5/6 |
大?。?/td>
| 2514KB |
| 格式: |
pdf 共19頁(yè) |
來(lái)源: |
華泰證券 |
| 評(píng)級(jí): |
-- |
作者: |
林曉明,何康 |
| 下載權(quán)限: |
此報(bào)告為加密報(bào)告 |
|
|
人工智能系列之77:基于GPT和RAG技術(shù)的代碼復(fù)現(xiàn)系統(tǒng) 本文探索大語(yǔ)言模型在量化研究領(lǐng)域中進(jìn)行代碼復(fù)現(xiàn)的實(shí)際應(yīng)用。基于GPT-4系列模型和RAG技術(shù),本文構(gòu)建了一個(gè)完善且易用的代碼復(fù)現(xiàn)框架,我們稱之為“GPT如?!?。在框架內(nèi)部,GPT多模態(tài)模型提供了提取圖片語(yǔ)義信息的能力,RAG模塊則有效支持海量文檔的切分與檢索,為大模型提供外部知識(shí)庫(kù),基于此,“GPT如?!蹦軌蚋鶕?jù)輸入的圖片或PDF文檔,準(zhǔn)確提取與代碼復(fù)現(xiàn)任務(wù)相關(guān)的信息,并進(jìn)行代碼自動(dòng)化生成。測(cè)試結(jié)果顯示,“GPT如海”能較準(zhǔn)確地復(fù)現(xiàn)因子計(jì)算和人工智能量化策略代碼。 多模態(tài)大語(yǔ)言模型:勾勒?qǐng)D片中蘊(yùn)含的語(yǔ)義信息 傳統(tǒng)的大語(yǔ)言模型僅能處理單一模態(tài)的數(shù)據(jù),例如文本,而多模態(tài)大模型擁有多模態(tài)感知和生成能力,例如圖像、語(yǔ)音和視頻,在交互性上更貼近通用人工智能的愿景。近年來(lái),多模態(tài)大模型已經(jīng)得到了長(zhǎng)足的發(fā)展,目前多模態(tài)大模型已經(jīng)具備同時(shí)感知文本、圖像、音頻的能力,并且逐漸發(fā)展出生成多模態(tài)內(nèi)容的能力。在量化研究領(lǐng)域中,研究報(bào)告同樣蘊(yùn)含較為豐富的多模態(tài)數(shù)據(jù),包括文本和圖像數(shù)據(jù),在多模態(tài)大語(yǔ)言模型圖像感知能力的加持下,代碼復(fù)現(xiàn)系統(tǒng)可能會(huì)更具準(zhǔn)確性與實(shí)用性。 檢索增強(qiáng)生成:為大語(yǔ)言模型披上知識(shí)之鎧 RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)是一種通過(guò)使用外部來(lái)源事實(shí)構(gòu)建向量知識(shí)庫(kù),用于提升生成式人工智能準(zhǔn)確性和可靠性的技術(shù)。具體而言,在大模型生成內(nèi)容時(shí),RAG將首先在外部知識(shí)庫(kù)中檢索相關(guān)信息,隨后依據(jù)相關(guān)信息大模型將生成更為準(zhǔn)確的回答?;诳呻S時(shí)更新的外部知識(shí)庫(kù),RAG在有效提升大模型生成內(nèi)容的時(shí)效性與準(zhǔn)確性的同時(shí),降低了大模型產(chǎn)生“幻覺(jué)”現(xiàn)象的可能性。對(duì)于代碼復(fù)現(xiàn)系統(tǒng),RAG能支撐海量文檔并提供高效信息檢索,為代碼生成提供信息依據(jù)。 “GPT如?!笨蓮?fù)現(xiàn)因子計(jì)算和人工智能量化策略代碼 我們針對(duì)不同應(yīng)用場(chǎng)景設(shè)計(jì)了兩套代碼復(fù)現(xiàn)模板,分別是因子代碼復(fù)現(xiàn)和人工智能量化策略代碼復(fù)現(xiàn)。對(duì)于因子代碼復(fù)現(xiàn)場(chǎng)景,測(cè)試結(jié)果顯示“GPT如?!蹦軌蜉^準(zhǔn)確地提取出圖片或PDF文檔中的因子表達(dá)式以及因子構(gòu)建步驟,并能進(jìn)一步以此為基礎(chǔ)構(gòu)建因子計(jì)算代碼;對(duì)于人工智能量化策略復(fù)現(xiàn)場(chǎng)景,測(cè)試結(jié)果顯示,“GPT如海”能夠較準(zhǔn)確地提取出人工智能量化策略的構(gòu)建步驟和細(xì)節(jié)參數(shù),并依次輸出數(shù)據(jù)集構(gòu)建、模型架構(gòu)和模型訓(xùn)練的.py代碼,在代碼細(xì)節(jié)上,我們觀察到“GPT如海”能夠敏銳捕捉到策略構(gòu)建的細(xì)節(jié),例如損失函數(shù)設(shè)計(jì)等,盡管這些細(xì)節(jié)信息散布在文章各處。 多模型復(fù)現(xiàn)效果對(duì)比:小模型也可“納須彌于芥子” 在大模型如火如荼的發(fā)展進(jìn)程中,專為響應(yīng)大模型落地需求的小型大語(yǔ)言模型也漸為興盛。我們簡(jiǎn)易對(duì)比了GPT-4、通義千問(wèn)(Qwen 1.5,7B)和Llama3(8B)的代碼生成效果,在不同評(píng)價(jià)維度上,三個(gè)模型展現(xiàn)出差異性特征,例如GPT-4并不嚴(yán)格遵守代碼模板,而通義千問(wèn)和Llama3較為遵守代碼模板??陀^而言,通義千問(wèn)和Llama3以小參數(shù)體量博得不錯(cuò)的代碼生成效果,體現(xiàn)出小型模型“納須彌于芥子”的潛力。 風(fēng)險(xiǎn)提示:大模型存在幻覺(jué)現(xiàn)象,模型生成結(jié)果可能不符合事實(shí)。大模型生成的代碼可能存在錯(cuò)誤,使用需謹(jǐn)慎。大模型提取信息可能存在遺漏。大模型訓(xùn)練集廣泛,可能存在過(guò)擬合風(fēng)險(xiǎn)。
|
|