Search for a command to run...
MIST : Transformateur itératif spatial-temporel multimodal pour la réponse à des questions sur des vidéos longues