vor 8 Tagen

Shotluck Holmes: Eine Familie effizienter kleinskaliger großer Sprach-Vision-Modelle für Video-Beschreibung und -Zusammenfassung

Richard Luo, Austin Peng, Adithya Vasudev, Rishabh Jain

Abstract

Video ist ein zunehmend bedeutendes und informationsdichtes Medium, stellt jedoch erhebliche Herausforderungen für Sprachmodelle dar. Ein typisches Video besteht aus einer Folge kürzerer Segmente, sogenannter Shots, die gemeinsam eine kohärente Erzählung bilden. Jeder Shot ist vergleichbar mit einem Wort in einem Satz, bei dem mehrere Datenströme (wie visuelle und akustische Informationen) gleichzeitig verarbeitet werden müssen. Die Verständnis des gesamten Videos erfordert nicht nur die Interpretation der visuellen und akustischen Informationen jedes Shots, sondern auch die Fähigkeit des Modells, die Gedanken zwischen den einzelnen Shots zu verknüpfen, um eine umfassende, zusammenhängende Geschichte zu generieren. Trotz erheblicher Fortschritte in der Forschung werden in aktuellen Arbeiten oft die fein granularen, shot-basierten semantischen Informationen von Videos vernachlässigt. In diesem Projekt stellen wir eine Familie effizienter großer Sprach-Vision-Modelle (LLVMs) vor, die die Video-Zusammenfassung und -Beschreibung verbessern sollen und unter dem Namen Shotluck Holmes bekannt sind. Durch die Nutzung verbesserter Vortrainings- und Datensammlungsstrategien erweitern wir die Fähigkeiten bestehender kleiner LLVMs von der Bildverarbeitung auf die Verarbeitung von Bildfolgen. Konkret zeigen wir, dass Shotluck Holmes auf der Shot2Story-Aufgabe zur Video-Beschreibung und -Zusammenfassung eine bessere Leistung erzielt als die derzeitigen State-of-the-Art-Methoden, und zwar mit deutlich kleineren und rechnerisch effizienteren Modellen.