Search for a command to run...
Wie viel kann CLIP den Aufgaben im Bereich Vision-and-Language nutzen?