Objekt-Relationen-Graph mit lehrerempfohlenem Lernen für Video-Beschreibung

Die vollständige Ausnutzung der Informationen aus Vision und Sprache ist entscheidend für die Aufgabe der Videozusammenfassung (Video Captioning). Bestehende Modelle verfügen aufgrund der Vernachlässigung der Wechselwirkungen zwischen Objekten über eine unzureichende visuelle Repräsentation und aufgrund des Long-Tailed-Problems über eine ungenügende Schulung hinsichtlich inhaltsrelevanter Wörter. In diesem Artikel präsentieren wir ein komplettes System für die Videozusammenfassung, das sowohl ein neuartiges Modell als auch eine effektive Trainingsstrategie umfasst. Konkret schlagen wir einen auf einem Objekt-Beziehungs-Graphen (Object Relational Graph, ORG) basierenden Encoder vor, der detailliertere Interaktionsmerkmale erfasst, um die visuelle Repräsentation zu bereichern. Gleichzeitig entwickeln wir eine Lehrer-empfohlene Lernmethode (Teacher-Recommended Learning, TRL), die die erfolgreiche externe Sprachmodell (External Language Model, ELM) optimal nutzt, um umfangreiches sprachliches Wissen in das Zusammenfassungsmodell zu integrieren. Das ELM generiert semantisch ähnlichere Wortvorschläge, die die für das Training verwendeten Ground-Truth-Wörter erweitern und somit das Long-Tailed-Problem effektiver angehen. Experimentelle Bewertungen an drei Benchmark-Datensätzen – MSVD, MSR-VTT und VATEX – zeigen, dass das vorgeschlagene ORG-TRL-System eine state-of-the-art-Leistung erreicht. Umfassende Ablationsstudien und Visualisierungen belegen die Wirksamkeit unseres Systems.