Search for a command to run...
Voir ce que je veux dire : Aligner les représentations visuelles et linguistiques pour la compréhension fine des objets dans les vidéos