Auswahl und Handel: Hin zu einheitlichem Paarhandel mit hierarchischem Reinforcement Learning

Paarhandel ist eine der effektivsten statistischen Arbitrage-Strategien, die ein neutrales Gewinnstreben durch das Hedgen eines ausgewählten Vermögenswertpaares anstrebt. Bestehende Methoden zerlegen diese Aufgabe in zwei getrennte Schritte: Paarauswahl und Handel. Die Trennung dieser eng miteinander verbundenen Teilprobleme kann jedoch die Informationsverbreitung blockieren und zu einer begrenzten Gesamtleistung führen. Bei der Paarauswahl führt das Ignorieren der Handelsleistung dazu, dass falsche Vermögenswerte mit unabhängigen Preisbewegungen ausgewählt werden, während ein für den Handel trainierter Agent ohne historische Informationen über andere Vermögenswerte überanpassen (overfit) kann. Um dieses Problem zu lösen, schlagen wir in diesem Papier ein Paradigma für automatisierten Paarhandel vor, das als vereinte Aufgabe konzipiert ist, anstatt als zweistufiges Pipeline-Prozess. Wir entwickeln ein hierarchisches Reinforcement-Learning-Framework, um beide Teilprobleme gemeinsam zu lernen und zu optimieren. Eine hochrangige Politik würde aus allen möglichen Kombinationen zwei Vermögenswerte auswählen, während eine niederangige Politik dann eine Reihe von Handelsaktionen durchführt. Experimentelle Ergebnisse anhand realer Aktiendaten zeigen die Effektivität unserer Methode im Vergleich zu sowohl bestehenden Paarauswahl- als auch Handelsmethoden.