HyperAIHyperAI
vor 17 Tagen

Relationales Schließen über räumlich-zeitliche Graphen für die Videozusammenfassung

{Jie zhou, Jiwen Lu, Yucheng Han, Wencheng Zhu}
Abstract

In diesem Artikel stellen wir einen dynamischen Graphenmodellierungsansatz vor, um räumlich-zeitliche Darstellungen für die Videozusammenfassung zu lernen. Die meisten existierenden Methoden zur Videozusammenfassung extrahieren Bildniveau-Features mit tiefen Modellen, die auf ImageNet vortrainiert wurden. Im Gegensatz dazu nutzt unsere Methode informationsreiche Objekt- und Beziehungslevel-Informationen, um räumlich-zeitliche Abhängigkeiten zu erfassen. Konkret baut unsere Methode räumliche Graphen auf den detektierten Objektproposals auf. Anschließend konstruieren wir einen zeitlichen Graphen mithilfe der aggregierten Darstellungen der räumlichen Graphen. Danach führen wir relationale Schlussfolgerungen über räumliche und zeitliche Graphen mittels Graphen-Convolutional Networks durch und extrahieren räumlich-zeitliche Darstellungen zur Vorhersage von Wichtigkeitswerten und zur Auswahl zentraler Szenen. Um Beziehungsstörungen zu beseitigen, die durch dicht verbundene Knoten verursacht werden, entwickeln wir zudem ein selbst-Attention-Edge-Pooling-Modul, das bedeutungslose Beziehungen in den Graphen ignoriert. Wir führen umfangreiche Experimente auf zwei etablierten Benchmarks durch, darunter die SumMe- und TVSum-Datensätze. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode gegenüber aktuellen State-of-the-Art-Methoden zur Videozusammenfassung eine überlegene Leistung erzielt.

Relationales Schließen über räumlich-zeitliche Graphen für die Videozusammenfassung | Neueste Forschungsarbeiten | HyperAI