Search for a command to run...
Multimodale Generierung auf CLIP durch vision-sprachliche Wissensdistillation ermöglichen