HawkEye: Training von Video-Text-LLMs für die Verankerung von Text in Videos

Video-Text Large Language Models (Video-Text LLMs) haben eine bemerkenswerte Leistung bei der Beantwortung von Fragen und dem Führen von Konversationen zu einfachen Videos gezeigt. Allerdings erzielen sie bei der Verortung von Textanfragen in langen und komplexen Videos nahezu zufällige Ergebnisse, da sie nur begrenzt in der Lage sind, zeitliche Informationen zu verstehen und zu interpretieren, was den grundlegendsten Unterschied zwischen Videos und Bildern darstellt. In dieser Arbeit schlagen wir HawkEye vor, eines der ersten Video-Text LLMs, das die zeitliche Verortung von Videos auf vollständig textbasierte Weise durchführen kann. Um Trainingsdaten zu sammeln, die für die zeitliche Verortung von Videos geeignet sind, erstellen wir InternVid-G, ein groß angelegtes Video-Text-Korpus mit segmentalen Beschriftungen und negativen Zeiträumen. Mit diesem Korpus führen wir zwei neue zeitbewusste Trainingsziele für Video-Text LLMs ein. Wir schlagen außerdem eine grobkörnige Methode zur Darstellung von Segmente in Videos vor, die robuster ist und leichter für LLMs zu lernen und nachzuvollziehen als alternative Ansätze. Ausführliche Experimente zeigen, dass HawkEye bei der zeitlichen Verortung von Videos überlegen ist und sich bei anderen Video-Text-Aufgaben mit bestehenden Video-Text LLMs vergleichen lässt. Dies bestätigt seine überlegenen video-textuellen multimodalen Verarbeitungsfähigkeiten.