Search for a command to run...
Fein granulare visuelle textuelle Ausrichtung für cross-modale Retrieval mit Transformer-Encodern