Échoue-t-on avec la Quantification Vectorielle en Prévision Spatio-Temporelle ? Exploration d'une Approche de Quantification Vectorielle Éparse et Différentiable

La prévision spatio-temporelle est cruciale dans divers domaines et nécessite un équilibre soigneux entre l'identification de motifs subtils et le filtrage du bruit. La quantification vectorielle (VQ) semble bien adaptée à cet objectif, car elle quantifie les vecteurs d'entrée en un ensemble de vecteurs-code ou de motifs. Bien que la VQ ait montré son potentiel dans diverses tâches de vision par ordinateur, elle surprend par sa faible efficacité pour améliorer la précision de la prévision spatio-temporelle. Nous attribuons cela à deux problèmes principaux : une optimisation inexacte due à la non-différentiabilité et une puissance de représentation limitée dans la VQ dure. Pour relever ces défis, nous présentons la Quantification Vectorielle Éparse Différentiable (SVQ), la première méthode VQ visant à améliorer la prévision spatio-temporelle. L'approche SVQ équilibre la préservation des détails avec la réduction du bruit, offrant une différentiabilité complète et un solide fondement dans la régression éparse. Notre méthode utilise un perceptron multicouche (MLP) à deux couches et un codebook étendu pour rationaliser le processus de régression éparse, réduisant considérablement les coûts computationnels tout en simplifiant l'entraînement et en améliorant les performances. Des études empiriques sur cinq jeux de données de référence spatio-temporels montrent que SVQ atteint des résultats d'état de l'art, y compris une amélioration de 7,9 % sur le jeu de données WeatherBench-S température et une réduction moyenne de l'erreur absolue moyenne de 9,4 % dans les benchmarks de prédiction vidéo (Human3.6M, KTH et KittiCaltech), ainsi qu'une amélioration de 17,3 % de la qualité des images (LPIPS). Le code est disponible au public sur https://github.com/Pachark/SVQ-Forecasting.