Search for a command to run...
VLTinT: Visual-Linguistic Transformer-in-Transformer für kohärente Video-Paragraph-Kommentierung