Search for a command to run...
LongVILA: Skalierung von Visuellen Sprachmodellen mit Langem Kontext für Lange Videos