Search for a command to run...
Exploiter les modèles pré-entraînés vision-langue avec une adaptation temporelle pour la segmentation d'objets vidéo par référence