好看的历史书籍推荐,大主宰,已完结小说排行榜

>> 東方證券-因子選股系列研究之八十六：研報文本情感傾向因子-221206

上傳日期：	2022/12/7	大?。?/td>	1872KB
格式：	pdf 共27頁	來源：	東方證券
評級：	--	作者：	王星星
下載權(quán)限：	此報告為加密報告，僅限高級會員查看

研究結(jié)論
　　分析師研報數(shù)據(jù)是相對獨立的信息源，本報告基于朝陽永續(xù)的研報標題和摘要文本、盈利預(yù)測，用多種NLP模型提取文本特征，判斷研報的情感傾向。
　　文本的處理有多種多樣的方式，文本特征具有稀疏的特性，本文通過正則匹配、同義映射、詞向量映射三種方法對文本特征進行降維，在同樣的特征維度中可以囊括更多的信息，提升因子表現(xiàn)的同時，增加了模型的可解釋性。對降維后的特征用XGB和RNN模型對研報盈利預(yù)測調(diào)整幅度進行回歸訓(xùn)練。
　　本文用多種處理方法和模型構(gòu)建了如下5個因子：
　　1.詞頻因子RPTF：統(tǒng)計訓(xùn)練窗口內(nèi)的高頻詞，形成log詞頻矩陣，用XGB進行回歸預(yù)測，全樣本Rank IC 3.4%，ICIR 1.3，年化收益率20%。缺點是單詞特征并不能體現(xiàn)出情感傾向，如果“利潤”“成本”“增加”三個詞同時出現(xiàn)的話，邏輯上模型并不能知道是利潤在增加還是成本在增加，于是衍生出RPRF因子。
　　2.正則表達式因子RPRF：人工提取研報中常見、并且具有情感傾向的表達，類似于((產(chǎn)能)。(規(guī)模)。(如期)).((達產(chǎn))。(投放))，形成regex的One-Hot矩陣，用XGB進行回歸預(yù)測，全樣本Rank IC 3.5%，ICIR 1.7，年化收益率19%。缺點是人工提取regex費時費力且不全面，需要不斷更新表達式以適應(yīng)新的表達，于是衍生出RPBF因子。
　　3.同義映射詞組因子RPBF：將分詞用同義詞進行映射降維，相鄰兩詞組成一個詞組，統(tǒng)計高頻詞組，形成詞組頻矩陣，用XGB進行回歸預(yù)測，全樣本Rank IC3.5%，ICIR 1.5，年化收益率19%。缺點是只包括了文本的離散特征而遺漏了文本的時序特征，于是衍生出RPNN因子。
　　4.循環(huán)神經(jīng)網(wǎng)絡(luò)因子RPNN：將分詞序列用詞向量進行映射，形成詞向量序列，用單層GRU進行訓(xùn)練預(yù)測，全樣本Rank IC 3.0%，ICIR 1.2，年化收益率16%。缺點是比較消耗算力，只能對標題進行訓(xùn)練，且模型比較黑箱。
　　5.合成因子RPST：由前面四個因子等權(quán)合成，全樣本Rank IC 3.8%，ICIR 1.4，年化收益率20%，中性化之后全樣本Rank IC 3.9%，ICIR 2.4，年化收益率19%，各項回測指標都超過WFR，符合預(yù)期。
　　本文分開使用標題文本和摘要文本提取體征，因為經(jīng)過測試發(fā)現(xiàn)摘要文本中蘊含著大量增量信息，在RPTF模型中摘要信息的加入能夠提升一倍的多頭年化收益率，從5%提升到11%。
　　前四個因子使用相同的文本數(shù)據(jù)和訓(xùn)練標簽，但是彼此之間的因子相關(guān)性在0.57-0.67，相關(guān)性并不算高，說明對于文本的不同特征抓取方式其實包含了不同的信息。將訓(xùn)練標簽——盈利調(diào)整，按照同樣的方式構(gòu)建成因子，可以發(fā)現(xiàn)四因子和盈利調(diào)整均值的相關(guān)性在0.42-0.55，說明模型從文本中學(xué)習(xí)到了額外的信息。
　　RPST在各個樣本空間進行行業(yè)市值中性化之后，選股能力RankIC在中證1000中提升到了4.5%，而在滬深300中下降到了2.4%，這種現(xiàn)象在WFR因子中也同樣存在，而在全樣本中，中性化之后ICIR和Sharpe都有明顯提升，MaxDD在各樣本空間都顯著下降，說明選股能力和盈利能力在剔除了行業(yè)市值的影響之后都變得更加穩(wěn)定。
　　風(fēng)險提示量化模型失效風(fēng)險；市場極端環(huán)境沖擊

相關(guān)研報

久久一日本道色综合久久_国产最爽的av片在线观看_精品成人Av一区二区三区_94久久国产乱子伦精品免费_国产三级网站在线观看_和女邻居做爰在线观看_wymfw最新免费_国产强奷在线免费阅读_95在线观看视频