Search for a command to run...
CLIP4STR: Ein einfacher Baseline für die Szenentexterkennung mit vortrainiertem Vision-Sprache-Modell