HyperAIHyperAI

Command Palette

Search for a command to run...

Text mit wissenbasiertem Graphen-verbessertem Transformer für Video-Beschreibung

Xin Gu Guang Chen Yufei Wang Libo Zhang Tiejian Luo Longyin Wen

Zusammenfassung

Die Video-Kommentierung zielt darauf ab, den Inhalt von Videos mithilfe natürlicher Sprache zu beschreiben. Obwohl erhebliche Fortschritte erzielt wurden, besteht weiterhin erheblicher Verbesserungsbedarf für den Einsatz in realen Anwendungen, hauptsächlich aufgrund der Herausforderung durch sogenannte „long-tail-Wörter“. In diesem Artikel stellen wir einen Text mit Wissensgraph-erweiterten Transformer (TextKG) für die Video-Kommentierung vor. Insbesondere handelt es sich bei TextKG um einen zweistromigen Transformer, der aus einem externen und einem internen Strom besteht. Der externe Strom ist darauf ausgelegt, zusätzliche Wissensinhalte aufzunehmen und die Wechselwirkungen zwischen diesen zusätzlichen Wissensquellen – beispielsweise einem vorab erstellten Wissensgraphen – und den integrierten Informationen aus Videos – wie beispielsweise auffälligen Objektregionen, Sprachtranskripten und Video-Kommentaren – zu modellieren, um die Herausforderung der langen Schwanzverteilung von Wörtern zu mildern. Gleichzeitig ist der interne Strom darauf ausgelegt, multimodale Informationen in Videos (z. B. visuelle Merkmale von Videobildern, Sprachtranskripte und Video-Kommentare) effektiv auszunutzen, um die Qualität der Kommentarergebnisse sicherzustellen. Darüber hinaus wird auch ein Kreuz-Attention-Mechanismus zwischen den beiden Strömen eingesetzt, um die Informationsweitergabe zu ermöglichen. Auf diese Weise können sich die beiden Ströme gegenseitig unterstützen und zu präziseren Ergebnissen beitragen. Umfangreiche Experimente an vier anspruchsvollen Datensätzen für die Video-Kommentierung – YouCookII, ActivityNet Captions, MSRVTT und MSVD – zeigen, dass die vorgeschlagene Methode gegenüber den aktuellen Stand der Technik vorteilhaft abschneidet. Insbesondere übertrifft die vorgeschlagene TextKG-Methode die bisher besten veröffentlichten Ergebnisse um 18,7 Prozentpunkte im absoluten CIDEr-Score auf dem YouCookII-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp