Aktionwissen für Videozusammenfassungen mit Graph Neural Networks
Viele bestehende Methoden zur Video-Kommentierung erfassen Aktionsinformationen in Videos, indem sie Merkmale aus einem Aktionserkennungsmodell ausnutzen. Die direkte Verwendung dieser Aktionsmerkmale ohne objektspezifische Repräsentation kann jedoch die Wechselwirkungen zwischen Objekten nicht ausreichend erfassen. Folglich können die generierten Kommentare nicht präzise genug die Aktionen und Objekte in den Szenen beschreiben. Um dieses Problem anzugehen, schlagen wir vor, die Aktionsmerkmale als Kantenmerkmale in einem Graphen neuronalen Netzwerk einzubinden, wobei die Knoten die Objekte darstellen, um eine feinere visuelle Repräsentation der Beziehungen zwischen Objekt-Aktion-Objekt zu ermöglichen. Bisherige graphbasierte Ansätze zur Video-Kommentierung stützten sich häufig auf ein vortrainiertes Objektdetektionsmodell zur Erzeugung der Knotenrepräsentationen. Solche Objektdetektionsmodelle können jedoch wichtige Objekte übersehen. Um dieses Problem zu mildern, führen wir zusätzlich eine gitterbasierte Knotenrepräsentation ein, bei der die Knoten durch Merkmale repräsentiert werden, die aus Gitterzellen von Videobildern extrahiert wurden. Mit dieser Darstellung werden wichtige Objekte in den Szenen umfassender erfasst. Um während der Inferenz keine zusätzliche Komplexität einzuführen, wird das Wissen des vorgeschlagenen Graphen mittels Knowledge Distillation auf ein anderes neuronales Netzwerk übertragen. Unsere vorgeschlagene Methode erreicht state-of-the-art-Ergebnisse auf zwei gängigen Datensätzen für Video-Kommentierung, nämlich MSVD und MSR-VTT, in allen Metriken. Der Quellcode unserer Methode ist unter https://github.com/Sejong-VLI/V2T-Action-Graph-JKSUCIS-2023 verfügbar.