Compréhension dynamique des scènes à partir de représentations vision-langage

Les images représentant des scènes complexes et dynamiques sont difficiles à analyser automatiquement, nécessitant une compréhension de haut niveau de la situation globale ainsi qu'une identification détaillée des entités participantes et de leurs interactions. Les approches actuelles utilisent des méthodes distinctes adaptées à des sous-tâches telles que la Reconnaissance de Situations et la détection d'Interactions Homme-Homme et Homme-Objet. Cependant, les récentes avancées dans la compréhension des images ont souvent exploité des représentations vision-langage (V&L) à l'échelle du web pour éviter le génie spécifique à chaque tâche. Dans ce travail, nous proposons un cadre pour les tâches de compréhension de scènes dynamiques en tirant parti des connaissances issues de représentations V&L modernes et figées. En abordant ces tâches de manière générique — soit en prédiction et analyse de texte structuré, soit en concaténation directe des représentations à l'entrée de modèles existants — nous obtenons des résultats d'état de l'art tout en utilisant un nombre minimal de paramètres entraînables par rapport aux approches actuelles. De plus, notre analyse des connaissances dynamiques de ces représentations montre que les représentations plus puissantes et récentes encodent efficacement les sémantiques des scènes dynamiques, rendant cette approche désormais possible.