Text mit wissenbasiertem Graphen-verbessertem Transformer für Video-Beschreibung

Die Video-Kommentierung zielt darauf ab, den Inhalt von Videos mithilfe natürlicher Sprache zu beschreiben. Obwohl erhebliche Fortschritte erzielt wurden, besteht weiterhin erheblicher Verbesserungsbedarf für den Einsatz in realen Anwendungen, hauptsächlich aufgrund der Herausforderung durch sogenannte „long-tail-Wörter“. In diesem Artikel stellen wir einen Text mit Wissensgraph-erweiterten Transformer (TextKG) für die Video-Kommentierung vor. Insbesondere handelt es sich bei TextKG um einen zweistromigen Transformer, der aus einem externen und einem internen Strom besteht. Der externe Strom ist darauf ausgelegt, zusätzliche Wissensinhalte aufzunehmen und die Wechselwirkungen zwischen diesen zusätzlichen Wissensquellen – beispielsweise einem vorab erstellten Wissensgraphen – und den integrierten Informationen aus Videos – wie beispielsweise auffälligen Objektregionen, Sprachtranskripten und Video-Kommentaren – zu modellieren, um die Herausforderung der langen Schwanzverteilung von Wörtern zu mildern. Gleichzeitig ist der interne Strom darauf ausgelegt, multimodale Informationen in Videos (z. B. visuelle Merkmale von Videobildern, Sprachtranskripte und Video-Kommentare) effektiv auszunutzen, um die Qualität der Kommentarergebnisse sicherzustellen. Darüber hinaus wird auch ein Kreuz-Attention-Mechanismus zwischen den beiden Strömen eingesetzt, um die Informationsweitergabe zu ermöglichen. Auf diese Weise können sich die beiden Ströme gegenseitig unterstützen und zu präziseren Ergebnissen beitragen. Umfangreiche Experimente an vier anspruchsvollen Datensätzen für die Video-Kommentierung – YouCookII, ActivityNet Captions, MSRVTT und MSVD – zeigen, dass die vorgeschlagene Methode gegenüber den aktuellen Stand der Technik vorteilhaft abschneidet. Insbesondere übertrifft die vorgeschlagene TextKG-Methode die bisher besten veröffentlichten Ergebnisse um 18,7 Prozentpunkte im absoluten CIDEr-Score auf dem YouCookII-Datensatz.