Search for a command to run...
CLIP-ViP: Anpassung eines vortrainierten Bild-Text-Modells an die Ausrichtung von Video-Sprache-Darstellungen