Search for a command to run...
Tarsier2: Fortschritte bei großen visuellen Sprachmodellen von detaillierter Videobeschreibung zu umfassendem Videoverstehen