Tiny Time Mixers (TTMs) : modèles pré-entraînés rapides pour une prévision améliorée en zéro ou peu d'exemples de séries temporelles multivariées

Les grands modèles pré-entraînés excellent dans les tâches d’apprentissage zéro ou à faible exemplaire (zero/few-shot) pour les tâches linguistiques et visuelles, mais rencontrent des difficultés dans la prévision de séries temporelles (TS) multivariées en raison de la diversité des caractéristiques des données. En conséquence, les recherches récentes se sont concentrées sur le développement de modèles pré-entraînés dédiés à la prévision de séries temporelles. Ces modèles, qu’ils soient conçus de zéro ou adaptés à partir de grands modèles linguistiques (LLM), se distinguent par leur efficacité dans les tâches de prévision zéro ou à faible exemplaire. Toutefois, ils sont limités par une performance lente, des besoins computationnels élevés, ainsi que par une négligence des corrélations croisées entre canaux et des corrélations avec des variables exogènes. Pour pallier ces défis, nous introduisons Tiny Time Mixers (TTM), un modèle compact (à partir de 1 million de paramètres) doté de capacités efficaces d’apprentissage transféré, entraîné exclusivement sur des jeux de données publics de séries temporelles. Basé sur l’architecture légère TSMixer, TTM intègre des innovations telles que le découpage adaptatif, l’échantillonnage à résolutions diverses et l’ajustement préfixe à plusieurs résolutions, permettant une pré-entraînement efficace sur des jeux de données de résolutions variées avec une capacité de modèle minimale. En outre, il utilise une modélisation hiérarchique pour capturer les corrélations entre canaux et intégrer des signaux exogènes lors de l’ajustage fin. TTM surpassent les benchmarks existants dans les tâches de prévision zéro ou à faible exemplaire de 4 à 40 %, tout en réduisant de manière significative les exigences computationnelles. En outre, les TTM sont légers et peuvent être exécutés même sur des machines ne disposant que d’un processeur central (CPU), ce qui améliore leur accessibilité et favorise leur adoption dans des environnements à ressources limitées. Les poids du modèle, disponibles pour assurer la reproductibilité et la recherche, sont accessibles à l’adresse suivante : https://huggingface.co/ibm/ttm-research-r2/. Les versions destinées à un usage industriel, sous licence Apache, peuvent être obtenues ainsi : la version initiale TTM-Q à l’adresse https://huggingface.co/ibm-granite/granite-timeseries-ttm-r1, tandis que les dernières variantes (TTM-B, TTM-E, TTM-A) sont disponibles à l’adresse https://huggingface.co/ibm-granite/granite-timeseries-ttm-r2.