Die Lücke schließen: Ein einheitliches Video-Verständnis-Framework für Moment-Retrieval und Highlight-Erkennung

Die Video-Moment-Retrieval (MR) und die Highlight-Detektion (HD) haben aufgrund des wachsenden Bedarfs an Videoanalyse erhebliche Aufmerksamkeit gefunden. Neuartige Ansätze behandeln MR und HD als ähnliche Probleme der Video-Grounding und lösen sie gemeinsam mit transformer-basierter Architektur. Allerdings beobachten wir, dass der Fokus von MR und HD unterschiedlich ist: Während das eine die Wahrnehmung lokaler Beziehungen erfordert, legt das andere den Schwerpunkt auf das Verständnis globaler Kontexte. Folglich führt der Mangel an task-spezifischem Design unvermeidlich zu Einschränkungen bei der Verknüpfung der inhärenten Spezialität beider Aufgaben. Um dieses Problem anzugehen, schlagen wir ein Unified Video COMprehension Framework (UVCOM) vor, um die Lücke zu überbrücken und MR und HD effektiv zusammen zu lösen. Durch fortschreitende Integration innerhalb und zwischen den Modalitäten auf mehreren Granularitätsebenen erreicht UVCOM ein umfassendes Verständnis bei der Videobearbeitung. Darüber hinaus präsentieren wir ein mehrdimensionales kontrastives Lernen, um die Modellierung lokaler Beziehungen und die Akkumulation globalen Wissens durch gut ausgerichteten multimodalen Raum zu stärken. Ausführliche Experimente auf den Datensätzen QVHighlights, Charades-STA, TACoS, YouTube Highlights und TVSum zeigen die Effektivität und Rationalität von UVCOM, welches die state-of-the-art Methoden deutlich übertreffen kann.