Astock: 株価特有のニュース分析モデルに基づく新しいデータセットと自動株式取引

自然言語処理(NLP)は、ソーシャルメディアやニュース媒体のテキストを分析することで、金融意思決定を支援する大きな可能性を持っています。本研究では、NLPを活用した株式自動取引アルゴリズムを体系的に研究するためのプラットフォームを開発しました。従来の研究と比較して、当プラットフォームには以下の3つの特徴があります:(1) 特定の株式ごとに金融ニュースを提供します。(2) 各株式に対して様々な株式要因を提供します。(3) より金融に関連性の高い指標からパフォーマンスを評価します。このような設計により、より現実的な環境でNLPを活用した株式自動取引アルゴリズムを開発および評価することが可能になります。評価プラットフォームの設計とデータセット収集に加えて、当研究では技術的な貢献も行いました。具体的には、様々な入力情報から良質な特徴表現を自動的に学習するシステムを提案しています。当アルゴリズムの鍵となる手法は、意味役割ラベリングプーリング(Semantic Role Labeling Pooling, SRLP)と呼ばれるもので、意味役割ラベリング(SRL)を利用して各ニュース段落のコンパクトな表現を作成します。SRLPに基づいて、さらに他の株式要因を取り入れて最終予測を行います。また、SRLPに基づく自己監督学習戦略を提案し、システムの外的分布一般化性能を向上させました。実験を通じて示された結果によると、提案手法は優れたパフォーマンスを達成し、全てのベースラインを超える年間化利回りとCSI300指数およびXIN9指数における最大ドローダウン率を実際の取引で達成しています。Astockデータセットとコードはhttps://github.com/JinanZou/Astock で公開されています。