Search for a command to run...
CLIPSelf: Vision Transformer distilliert sich selbst für die dichte Vorhersage offener Vokabularien