Sélection et Échange : Vers un Trading de Paires Unifié avec l'Apprentissage par Renforcement Hiérarchique

Le trading de paires est l'une des stratégies d'arbitrage statistique les plus efficaces, visant un profit neutre en couvrant une paire d'actifs sélectionnés. Les méthodes existantes décomposent généralement cette tâche en deux étapes distinctes : la sélection des paires et le trading. Cependant, la dissociation de ces deux sous-tâches étroitement liées peut entraver la propagation de l'information et limiter les performances globales. Pour la sélection des paires, ignorer les performances du trading entraîne souvent le choix d'actifs incorrects avec des mouvements de prix non pertinents, tandis que l'agent formé pour le trading peut surajuster ses actions aux actifs sélectionnés sans aucune information historique sur les autres actifs. Pour remédier à ce problème, dans cet article, nous proposons un paradigme pour le trading de paires automatique en tant que tâche unifiée plutôt qu'en pipeline à deux étapes. Nous concevons un cadre d'apprentissage par renforcement hiérarchique permettant d'apprendre et d'optimiser conjointement les deux sous-tâches. Une politique de haut niveau sélectionnera deux actifs parmi toutes les combinaisons possibles, et une politique de bas niveau effectuera ensuite une série d'actions de trading. Les résultats expérimentaux sur des données boursières réelles démontrent l'efficacité de notre méthode en matière de trading de paires par rapport aux méthodes existantes de sélection et de trading des paires.