Search for a command to run...
LAVT: Sprachbewusster Vision-Transformer für die referenzbasierte Bildsegmentierung