>> 東方證券-因子選股系列研究之八十六:研報文本情感傾向因子-221206
| 上傳日期: |
2022/12/7 |
大?。?/td>
| 1872KB |
| 格式: |
pdf 共27頁 |
來源: |
東方證券 |
| 評級: |
-- |
作者: |
王星星 |
| 下載權(quán)限: |
此報告為加密報告,僅限高級會員查看 |
|
|
研究結(jié)論 分析師研報數(shù)據(jù)是相對獨立的信息源,本報告基于朝陽永續(xù)的研報標題和摘要文本、盈利預(yù)測,用多種NLP模型提取文本特征,判斷研報的情感傾向。 文本的處理有多種多樣的方式,文本特征具有稀疏的特性,本文通過正則匹配、同義映射、詞向量映射三種方法對文本特征進行降維,在同樣的特征維度中可以囊括更多的信息,提升因子表現(xiàn)的同時,增加了模型的可解釋性。對降維后的特征用XGB和RNN模型對研報盈利預(yù)測調(diào)整幅度進行回歸訓(xùn)練。 本文用多種處理方法和模型構(gòu)建了如下5個因子: 1.詞頻因子RPTF:統(tǒng)計訓(xùn)練窗口內(nèi)的高頻詞,形成log詞頻矩陣,用XGB進行回歸預(yù)測,全樣本Rank IC 3.4%,ICIR 1.3,年化收益率20%。缺點是單詞特征并不能體現(xiàn)出情感傾向,如果“利潤”“成本”“增加”三個詞同時出現(xiàn)的話,邏輯上模型并不能知道是利潤在增加還是成本在增加,于是衍生出RPRF因子。 2.正則表達式因子RPRF:人工提取研報中常見、并且具有情感傾向的表達,類似于((產(chǎn)能)。(規(guī)模)。(如期)).((達產(chǎn))。(投放)),形成regex的One-Hot矩陣,用XGB進行回歸預(yù)測,全樣本Rank IC 3.5%,ICIR 1.7,年化收益率19%。缺點是人工提取regex費時費力且不全面,需要不斷更新表達式以適應(yīng)新的表達,于是衍生出RPBF因子。 3.同義映射詞組因子RPBF:將分詞用同義詞進行映射降維,相鄰兩詞組成一個詞組,統(tǒng)計高頻詞組,形成詞組頻矩陣,用XGB進行回歸預(yù)測,全樣本Rank IC3.5%,ICIR 1.5,年化收益率19%。缺點是只包括了文本的離散特征而遺漏了文本的時序特征,于是衍生出RPNN因子。 4.循環(huán)神經(jīng)網(wǎng)絡(luò)因子RPNN:將分詞序列用詞向量進行映射,形成詞向量序列,用單層GRU進行訓(xùn)練預(yù)測,全樣本Rank IC 3.0%,ICIR 1.2,年化收益率16%。缺點是比較消耗算力,只能對標題進行訓(xùn)練,且模型比較黑箱。 5.合成因子RPST:由前面四個因子等權(quán)合成,全樣本Rank IC 3.8%,ICIR 1.4,年化收益率20%,中性化之后全樣本Rank IC 3.9%,ICIR 2.4,年化收益率19%,各項回測指標都超過WFR,符合預(yù)期。 本文分開使用標題文本和摘要文本提取體征,因為經(jīng)過測試發(fā)現(xiàn)摘要文本中蘊含著大量增量信息,在RPTF模型中摘要信息的加入能夠提升一倍的多頭年化收益率,從5%提升到11%。 前四個因子使用相同的文本數(shù)據(jù)和訓(xùn)練標簽,但是彼此之間的因子相關(guān)性在0.57-0.67,相關(guān)性并不算高,說明對于文本的不同特征抓取方式其實包含了不同的信息。將訓(xùn)練標簽——盈利調(diào)整,按照同樣的方式構(gòu)建成因子,可以發(fā)現(xiàn)四因子和盈利調(diào)整均值的相關(guān)性在0.42-0.55,說明模型從文本中學(xué)習(xí)到了額外的信息。 RPST在各個樣本空間進行行業(yè)市值中性化之后,選股能力RankIC在中證1000中提升到了4.5%,而在滬深300中下降到了2.4%,這種現(xiàn)象在WFR因子中也同樣存在,而在全樣本中,中性化之后ICIR和Sharpe都有明顯提升,MaxDD在各樣本空間都顯著下降,說明選股能力和盈利能力在剔除了行業(yè)市值的影響之后都變得更加穩(wěn)定。 風(fēng)險提示量化模型失效風(fēng)險;市場極端環(huán)境沖擊
|
|