Astock: Ein neuer Datensatz und ein automatisiertes Aktienhandelssystem basierend auf einem modellbasierten Ansatz zur Analyse von aktienspezifischen Nachrichten

Die Verarbeitung natürlicher Sprache (NLP) zeigt ein großes Potenzial, die finanzielle Entscheidungsfindung durch die Analyse von Texten aus sozialen Medien oder Nachrichtenquellen zu unterstützen. In dieser Arbeit entwickeln wir eine Plattform, um NLP-gestützte Algorithmen für den automatisierten Aktienhandel systematisch zu untersuchen. Im Gegensatz zu früheren Arbeiten zeichnet sich unsere Plattform durch drei Merkmale aus: (1) Wir stellen spezifische finanzrelevante Nachrichten für jede einzelne Aktie zur Verfügung. (2) Wir bieten verschiedene Aktienfaktoren für jede Aktie an. (3) Wir bewerten die Leistung anhand von finanzspezifischen Metriken. Diese Gestaltung ermöglicht es uns, NLP-gestützte Algorithmen für den automatischen Aktienhandel in einer realistischeren Umgebung zu entwickeln und zu evaluieren.Neben der Entwicklung einer Evaluierungsplattform und der Datensammlung haben wir auch einen technischen Beitrag geleistet, indem wir ein System vorgeschlagen haben, das automatisch eine gute Merkmalsrepräsentation aus verschiedenen Eingabedaten lernt. Der Kern unseres Algorithmus ist eine Methode namens semantische Rollenbeschriftung Pooling (SRLP), die Semantische Rollenbeschriftung (SRL) nutzt, um eine kompakte Repräsentation jedes Nachrichtenabsatzes zu erstellen. Auf Basis von SRLP integrieren wir weitere Aktienfaktoren, um die endgültige Vorhersage zu treffen. Darüber hinaus schlagen wir eine selbstüberwachte Lernstrategie vor, die auf SRLP basiert und die Generalisierungsfähigkeit unseres Systems bei außerhalb des Trainingsdatums liegenden Verteilungen verbessert.Durch unsere experimentelle Studie zeigen wir, dass das vorgeschlagene Verfahren bessere Ergebnisse erzielt und alle Baseline-Methoden in Bezug auf den jährlichen Renditezinssatz sowie den maximalen Drawdown des CSI300-Index und des XIN9-Index im echten Handel übertrifft. Unser Astock-Datensatz und -Code sind unter https://github.com/JinanZou/Astock verfügbar.