>> 中信證券-機器學(xué)習(xí)系列-數(shù)據(jù)治理專題(四):基于蒸餾大模型的金融文本信息挖掘應(yīng)用探索-230509
| 上傳日期: |
2023/5/9 |
大小: |
2272KB |
| 格式: |
pdf 共30頁 |
來源: |
中信證券 |
| 評級: |
-- |
作者: |
張若海,伍家豪 |
| 下載權(quán)限: |
此報告為加密報告,僅限高級會員查看 |
|
|
本報告聚焦語義大模型對金融文本的標(biāo)簽提取和信息挖掘,基于自主微調(diào)后的版本,對常規(guī)金融文本進(jìn)行挖掘分析,實現(xiàn)市場關(guān)注度、投資情緒以及市場分歧等分析指標(biāo)落地。從投資效果看,基于開源的GLM微調(diào)后去構(gòu)建情緒指標(biāo),并構(gòu)建月頻Top50選股策略,相對于滬深300指數(shù)的年化超額收益率達(dá)到24.2%(2018-01至2023-03)。隨著大模型開源生態(tài),面向泛金融文本的大模型搭建、微調(diào)與應(yīng)用投資創(chuàng)新值得持續(xù)關(guān)注。對于大模型落地,我們可提供數(shù)據(jù)與算法的專業(yè)技術(shù)賦能,對于投資應(yīng)用,文本蒸餾大有可為。 ▍大模型助力NLP邁向NLU,金融文本大數(shù)據(jù)挖掘及其衍生策略值得持續(xù)關(guān)注。隨著AIGC的高速發(fā)展,預(yù)訓(xùn)練大模型的參數(shù)量持續(xù)增加已經(jīng)達(dá)到萬億級別,同時在大量NLP任務(wù)中均取得領(lǐng)先效果。借助大模型更強的文本理解和文本處理能力,本文以財經(jīng)新聞、分析師研報和公司公告為例,開展文本挖掘探索。 ▍金融文本提供市場消息面信息,開展文本挖掘分析有助于掌握投資先機。隨著信息化發(fā)展,很多影響市場的信息最先以文本方式進(jìn)行傳播,大量文本包含對上市公司經(jīng)營狀況的正面或負(fù)面描述。例如分析師研報一方面可以抽取形成分析師因子,另一方面對于公司的觀點和描述同樣具有隱含的增量信息和挖掘價值。我們基于蒸餾大模型標(biāo)注的情緒指標(biāo)構(gòu)建月頻Top50選股策略,相對于滬深300年化超額收益達(dá)到24.2%(回測區(qū)間為2018-01-01至2023-03-31)。 ▍面向金融文本信息挖掘的大模型微調(diào)流程:1)考慮數(shù)據(jù)安全和可及性,選擇百度文心ERNIE 3.0 Tiny預(yù)訓(xùn)練模型并下載;2)使用雪球和Wind有情感標(biāo)注的金融輿情文本微調(diào)模型;3)將微調(diào)后的模型在無標(biāo)注的財經(jīng)新聞、分析師研報摘要以及公司公告上提取信息并預(yù)測情感。 ▍使用微調(diào)后的大模型完成文本分析并構(gòu)建應(yīng)用指標(biāo): ?。?)關(guān)注度指標(biāo):監(jiān)控市場熱點變化。使用微調(diào)后的大模型提取新聞中相關(guān)上市公司,并構(gòu)建上市公司關(guān)注度指標(biāo)。結(jié)果顯示,2022年以來,行業(yè)龍頭關(guān)注度高,關(guān)注度排名前十的個股中九成超百億市值;從行業(yè)來看,2023年3月關(guān)注度最高的三個行業(yè)分別為計算機、通信和建筑。 ?。?)情緒指標(biāo):對收益率有一定的預(yù)測能力。2017年以來,分析師情緒指標(biāo)在滬深300、中證500以及全A中的覆蓋率分別為98%、90%和59%,且覆蓋率隨時間推移逐漸上升。經(jīng)過我們統(tǒng)計,指標(biāo)與基本面、收益率相關(guān)聯(lián),情緒取值越高的股票質(zhì)地較為優(yōu)良,未來短期內(nèi)獲得超額收益的概率也越高。 ?。?)分歧指標(biāo):與股票振幅走勢較為一致?;谇榫w方差構(gòu)建行業(yè)分歧度,回測結(jié)果顯示,2022-01至2023-03,行業(yè)分歧指標(biāo)與價格振幅的相關(guān)系數(shù)為0.62。 ▍基于大模型文本情感指標(biāo)構(gòu)建策略: ?。?)選股策略:基于分析師研報的情緒指標(biāo)具有較強超額收益能力。相比于傳統(tǒng)分析師因子,大模型能夠挖掘文本中情緒信息。2018-01至2023-03,基于情緒指標(biāo)的Top50選股策略相比基于評級的Top50選股策略年化超額收益達(dá)到13.3%,勝率達(dá)到64.5%。 ?。?)關(guān)鍵指數(shù)分層:分層效果較明顯,在全A股中表現(xiàn)最好。在滬深300、中證500和全A股中,Top分層組合年化超額收益率分別為3.15%、4.83%和6.14%。 ▍風(fēng)險因素:大模型技術(shù)發(fā)展與應(yīng)用不及預(yù)期;科技領(lǐng)域與數(shù)據(jù)確權(quán)監(jiān)管趨嚴(yán);文本數(shù)據(jù)覆蓋度可能不足;計算資源降本不及預(yù)期。
|
|