Search for a command to run...
Verallgemeinert sich die Leistung von Text-zu-Bild-Abfragemodellen über die Verwendung von Captions als Query hinaus?