Search for a command to run...
Lernen gemeinsamer Embeddings mit multimodalen Hinweisen für die cross-modale Video-Text-Abfrage