>> 華泰證券-金工深度研究-人工智能63:再探文本FADT選股-221028
| 上傳日期: |
2022/10/30 |
大?。?/td>
| 5157KB |
| 格式: |
pdf 共43頁(yè) |
來(lái)源: |
華泰證券 |
| 評(píng)級(jí): |
-- |
作者: |
林曉明,何康,李子鈺 |
| 下載權(quán)限: |
此報(bào)告為加密報(bào)告 |
|
|
人工智能63:分析師研報(bào)文本挖掘框架升級(jí) 本文承接前期研究文本FADT選股,重點(diǎn)關(guān)注如何對(duì)文本因子本身進(jìn)行升級(jí)。前期研究的核心思路是在特定場(chǎng)景下,以分析師研報(bào)文本的詞頻向量為特征,以研報(bào)發(fā)布前后兩日個(gè)股超額收益為標(biāo)簽,引導(dǎo)XGBoost模型學(xué)習(xí)研報(bào)情緒蘊(yùn)含的超額信息。在本文中我們將詞頻向量替換為FinBERT隱藏層編碼的特征向量作為后續(xù)淺度學(xué)習(xí)模型的輸入,隱藏層編碼蘊(yùn)含更豐富的文本語(yǔ)義信息,相比詞頻信息損失更少,以此帶來(lái)更顯著的alpha提升。 引入FinBERT編碼以后文本因子收益提升明顯 升級(jí)以后的文本因子十分層多頭第一層年化收益由原版的22.87%提升至27.50%,相對(duì)中證500超額收益由14.75%提升至19.19%(回測(cè)期20090123-20220930),提升較為明顯。針對(duì)改進(jìn)后的因子我們展示了三組應(yīng)用案例:1)構(gòu)建25只股票的主動(dòng)量化不等權(quán)選股組合,年化收益45.90%,相對(duì)中證500年化超額36.35%;2)限制在總市值100億以上的股票池中用文本因子構(gòu)建等權(quán)精選組合,Top20年化收益31.12%,相對(duì)中證500年化超額23.94%;3)構(gòu)建滬深300內(nèi)精選30不等權(quán)組合,年化收益17.58%,相對(duì)滬深300年化超額12.44%。 FinBERT是專(zhuān)門(mén)針對(duì)金融領(lǐng)域訓(xùn)練的BERT,使用Adapter-BERT微調(diào) BERT是Google在2018年提出的自然語(yǔ)言處理模型,在超過(guò)11項(xiàng)的NLP任務(wù)中均取得十分驚艷的結(jié)果。本文使用熵簡(jiǎn)科技于2020年末開(kāi)源的FinBERT模型,對(duì)于金融領(lǐng)域任務(wù)具有更強(qiáng)的針對(duì)性,在金融領(lǐng)域的相關(guān)任務(wù)中表現(xiàn)均超過(guò)原版BERT。由于FinBERT微調(diào)參數(shù)量超過(guò)1億,我們使用Adapter-BERT技術(shù)在基本不影響模型微調(diào)性能的前提下,降低微調(diào)參數(shù)至約三百萬(wàn),提升模型的訓(xùn)練效率。 模型升級(jí):FinBERT微調(diào)+CLS層編碼+XGBoost二次訓(xùn)練 使用FinBERT來(lái)對(duì)分析師研報(bào)文本進(jìn)行向量編碼并構(gòu)建文本因子,主要包括三個(gè)步驟:1)使用萬(wàn)得新聞?shì)浨槲谋緦?duì)FinBERT進(jìn)行微調(diào),使得FinBERT的分類(lèi)準(zhǔn)確率可以達(dá)到95%以上;2)使用FinBERT對(duì)分析師研報(bào)文本進(jìn)行編碼,將預(yù)處理過(guò)的研報(bào)文本輸入給FinBERT,提取CLS層輸出作為研報(bào)的特征向量;3)使用上述編碼好的特征向量替代詞頻向量,使用與原版模型同樣的標(biāo)簽,引導(dǎo)XGBoost模型樣本內(nèi)進(jìn)行交叉驗(yàn)證訓(xùn)練,樣本外預(yù)測(cè)并構(gòu)建forecast_adj_txt_bert因子。 多組擴(kuò)展測(cè)試表明過(guò)擬合概率低,更充分的語(yǔ)義理解帶來(lái)顯著alpha提升 同樣我們還是關(guān)注模型升級(jí)過(guò)程中是否有過(guò)擬合的問(wèn)題。除了基礎(chǔ)參數(shù),我們展示了五組擴(kuò)展測(cè)試:1)文本預(yù)處理時(shí),截?cái)嗪头侄蔚谋容^;2)FinBERT微調(diào)與不微調(diào)的比較;3)CLS層編碼與全連接層編碼的比較;4)CLS層編碼與詞頻特征結(jié)合是否有提升;5)僅使用FinBERT微調(diào)的效果。整體來(lái)看前四組測(cè)試都有效,模型升級(jí)大概率不是偶然因素導(dǎo)致的過(guò)擬合。 與傳統(tǒng)因子相關(guān)性低,且不同場(chǎng)景下文本因子均有明顯提升 此外我們討論了forecast_adj_txt_bert因子與Barra因子及傳統(tǒng)多因子的相關(guān)性,發(fā)現(xiàn)相關(guān)性較低,alpha特異性較強(qiáng)。最后我們?cè)诓煌膱?chǎng)景下討論了文本因子升級(jí)的效果,發(fā)現(xiàn)在業(yè)績(jī)發(fā)布場(chǎng)景、賣(mài)方分析師評(píng)級(jí)調(diào)整場(chǎng)景下文本因子均有明顯提升,再次說(shuō)明模型升級(jí)較為穩(wěn)健。 風(fēng)險(xiǎn)提示:通過(guò)機(jī)器學(xué)習(xí)模型構(gòu)建選股策略是歷史經(jīng)驗(yàn)的總結(jié),存在失效的可能。人工智能模型可解釋程度較低,使用須謹(jǐn)慎。量化因子歷史結(jié)果不能預(yù)測(cè)未來(lái),互聯(lián)網(wǎng)開(kāi)源模型需注意可復(fù)現(xiàn)性,敬請(qǐng)知悉。
|
|