Search for a command to run...
Multimodale Open-Vocabulary-Videoklassifikation mittels vortrainierten Vision- und Sprachmodellen