Search for a command to run...
Video-LaVIT: Einheitliche Video-Sprach-Vorabausbildung mit getrennter visueller und sprachlicher Tokenisierung