Search for a command to run...
Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning Überdenken von Video-ViTs: Dünnbesetzte Videoröhren für das gemeinsame Lernen von Bildern und Videos