CALF : Alignement des LLMs pour la prévision de séries temporelles par le biais du réglage fine à travers les modalités

L'apprentissage profond (par exemple, le modèle Transformer) a été largement et avec succès utilisé dans la prévision des séries temporelles multivariées (MTSF). Contrairement aux méthodes existantes qui se concentrent sur l'entraînement de modèles à partir d'une seule modalité d'entrée en série temporelle, les méthodes MTSF basées sur de grands modèles linguistiques (LLMs) utilisant une entrée croisée de texte et de série temporelle ont récemment montré une supériorité considérable, en particulier avec des données temporelles limitées. Cependant, les méthodes MTSF actuelles basées sur les LLMs se concentrent généralement sur l'adaptation et le fine-tuning des LLMs, tout en négligeant la disparité de distribution entre les jetons d'entrée textuels et temporels, ce qui entraîne des performances sous-optimales. Pour remédier à ce problème, nous proposons un nouveau cadre de fine-tuning croisé des LLMs pour la MTSF (CALF) en réduisant la disparité de distribution entre les données textuelles et temporelles. Ce cadre se compose principalement d'une branche cible temporelle avec une entrée temporelle et d'une branche source textuelle avec une entrée textuelle alignée. Afin de réduire la disparité de distribution, nous avons développé un module de correspondance croisée pour aligner en premier lieu les distributions d'entrée croisée. De plus, pour minimiser l'écart de distribution modale dans les espaces des caractéristiques et des sorties, une perte de régularisation des caractéristiques a été élaborée pour aligner les caractéristiques intermédiaires entre les deux branches afin d'améliorer les mises à jour des poids, tandis qu'une perte de cohérence des sorties a été introduite pour permettre aux représentations de sortie des deux branches de correspondre efficacement. Grâce à cet alignement modal, CALF établit un niveau de performance sans précédent pour les tâches de prévision à court et long terme avec une faible complexité computationnelle, tout en présentant des capacités favorables en apprentissage par quelques exemples (few-shot) et en apprentissage zéro-exemple (zero-shot), similaires à celles observées dans les LLMs. Le code est disponible sur https://github.com/Hank0626/LLaTA.