Search for a command to run...
VLCap: Vision-Language mit kontrastivem Lernen für kohärente Video-Paragraph-Kommentierung