LAVIB : Un grand benchmark d'interpolation vidéo

Ce document présente un Benchmark d'Interpolation Vidéo à Grande Échelle (LAVIB) pour la tâche de bas niveau de l'Interpolation de Cadres Vidéo (VFI). Le LAVIB comprend une vaste collection de vidéos haute résolution provenant du web, acquises par un pipeline automatisé avec des exigences minimales en termes de vérification humaine. Des métriques sont calculées pour les amplitudes de mouvement, les conditions d'éclairage, la netteté des images et le contraste de chaque vidéo. La collection de vidéos et la création de défis quantitatifs basés sur ces métriques sont peu explorées par les ensembles de données actuels dédiés aux tâches vidéo de bas niveau. Au total, le LAVIB inclut 283 000 extraits provenant de 17 000 vidéos ultra-HD, couvrant 77,6 heures. Les ensembles d'entraînement, de validation et de test du benchmark présentent des distributions similaires des métriques vidéo. Des sous-ensembles supplémentaires ont également été créés pour des défis hors distribution (OOD), avec des ensembles d'entraînement et de test comprenant des vidéos aux attributs dissemblables.