Search for a command to run...
Kombination von globalem und lokalem Attention mit Positions-Codierung für die Videozusammenfassung