MAD : Un Jeu de Données Évolutif pour l'Ancrage Linguistique dans les Vidéos à Partir des Descriptions Audio des Films

L'intérêt récent et croissant pour la recherche en vidéo-langage a stimulé le développement de jeux de données à grande échelle permettant l'utilisation de techniques d'apprentissage automatique intensives en données. En revanche, peu d'efforts ont été consacrés à l'évaluation de l'adéquation de ces jeux de données pour la tâche d'ancrage vidéo-langage. Des travaux récents ont commencé à mettre en lumière des limitations importantes dans ces jeux de données, suggérant que les techniques les plus avancées sur le plan technologique surent souvent aux biais cachés des jeux de données. Dans cette étude, nous présentons MAD (Movie Audio Descriptions), un nouveau benchmark qui s'écarte du paradigme consistant à enrichir les jeux de données vidéo existants avec des annotations textuelles et se concentre plutôt sur la collecte et l'alignement des descriptions audio disponibles des films grand public. MAD contient plus de 384 000 phrases en langage naturel ancrées dans plus de 1 200 heures de vidéos et présente une réduction significative des biais actuellement diagnostiqués dans les jeux de données d'ancrage vidéo-langage. La stratégie de collecte de MAD permet une version nouvelle et plus complexe de l'ancrage vidéo-langage, où il faut ancrer précisément des moments temporels courts (généralement d'une durée de quelques secondes) dans des vidéos longues et variées pouvant durer jusqu'à trois heures. Nous avons mis à disposition les données et le code des baselines de MAD sur https://github.com/Soldelli/MAD.