vor 2 Monaten

Lernen von grundlegenden visuellen-linguistischen Repräsentationen für vielseitiges Verständnis in ungeschnittenen Videos

Wang, Teng ; Zhang, Jinrui ; Zheng, Feng ; Jiang, Wenhao ; Cheng, Ran ; Luo, Ping

Abstract

In den letzten Jahren hat sich das gemeinsame Lernen von Video und Sprache zunehmend im Fokus der Forschung befunden. Bestehende Arbeiten konzentrieren sich jedoch hauptsächlich auf einzelne oder mehrere gekürzte Videosequenzen (Ereignisse), was während der Inferenz notwendige menschliche Annotationen von Ereignisgrenzen erfordert. Um diese Abhängigkeit zu überwinden, schlagen wir ein fundiertes Sehen-Sprache-Lernframework für ungeschnittene Videos vor, das informative Ereignisse automatisch erkennt und effektiv die Übereinstimmungen zwischen mehrsatzbasierten Beschreibungen und den entsprechenden Ereignissegmenten aufdeckt. Anstatt grobe Video-Sprach-Übereinstimmungen zu betrachten, präsentieren wir zwei duale Vorab-Aufgaben, um feingranulare Segment-Übereinstimmungen zu fördern: Text-zu-Ereignis-Anbindung (TEG) und Ereignis-zu-Text-Generierung (ETG). TEG lernt, unter Berücksichtigung eines Satzensegments die möglichen Ereignisanbindungen durch Schätzung des multimodalen Abstands in einem gemeinsamen semantischen Raum anzuwenden. Gleichzeitig zielt ETG darauf ab, die übereinstimmenden Texte bei gegebenen Ereignisanbindungen wiederherzustellen (zu generieren), wodurch die Ereignisdarstellung angeregt wird, bedeutungsvolle semantische Informationen beizubehalten. Um eine genaue Zuordnung von Ereignissen zu Texten zu fördern, schlagen wir eine neuartige semantikbasierte Kostenfunktion vor, um suboptimale Zuordnungsresultate aufgrund unscharfer Grenzannotationen zu mildern. Unser Framework ist leicht erweiterbar auf Aufgaben im Bereich visuell fundierter Sprachverarbeitung und -generierung. Wir erreichen state-of-the-art Leistungen in der dichten Videobeschreibung auf ActivityNet Captions, YouCook2 und YouMakeup sowie wettbewerbsfähige Leistungen bei mehreren anderen Sprachgenerierungs- und -verstehensaufgaben. Unsere Methode belegte zudem den ersten Platz sowohl in den MTVG- als auch in den MDVC-Aufgaben des PIC 4th Challenge. Unser Code ist öffentlich zugänglich unter https://github.com/zjr2000/GVL.