Transformateur hiérarchique pré-entraîné génératif pour la prévision de séries temporelles

Des efforts récents ont été consacrés à améliorer la précision de la prévision de séries temporelles en introduisant des architectures de réseaux avancées ainsi que des stratégies de pré-entraînement auto-supervisé. Toutefois, les approches existantes présentent encore deux défauts critiques. Premièrement, ces méthodes reposent souvent sur un seul jeu de données pour l'entraînement, ce qui limite la généralisation du modèle en raison de l'échelle restreinte des données d'entraînement. Deuxièmement, elles adoptent fréquemment un schéma de génération à pas unique, qui nécessite une tête de prévision personnalisée, ignore les dépendances temporelles présentes dans la série de sortie, et entraîne également des coûts d'entraînement accrus dans des configurations à différentes longueurs de prévision.Pour remédier à ces problèmes, nous proposons une nouvelle architecture hiérarchique de transformateur génératif pré-entraîné pour la prévision, nommée \textbf{GPHT}. Cette architecture repose sur deux principes clés. D'une part, nous proposons de construire un jeu de données mixte sous l'hypothèse d'indépendance des canaux afin de pré-entraîner notre modèle, en combinant divers jeux de données provenant de scénarios de données variés. Cette approche permet de considérablement étendre l'échelle des données d'entraînement, permettant au modèle d'identifier des caractéristiques communes dans les séries temporelles et facilitant ainsi un meilleur transfert vers des jeux de données spécifiques. D'autre part, GPHT utilise une approche de prévision auto-régressive, permettant une modélisation efficace des dépendances temporelles dans la série de sortie. De façon importante, aucune tête de prévision personnalisée n'est requise, ce qui permet à \textit{un seul modèle de réaliser des prévisions à tout horizon souhaité}. Nous avons mené des expériences approfondies sur huit jeux de données, en comparant GPHT avec des modèles auto-supervisés et supervisés couramment utilisés. Les résultats montrent que GPHT surpasse les modèles de référence dans diverses configurations de fine-tuning, ainsi que dans des scénarios de learning zéro ou à peu de données, dans le cadre classique de la prévision à long terme. Nous mettons notre code à disposition publiquement\footnote{https://github.com/icantnamemyself/GPHT}.