HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von grundlegenden visuellen-linguistischen Repräsentationen für vielseitiges Verständnis in ungeschnittenen Videos

Teng Wang Jinrui Zhang Feng Zheng Wenhao Jiang Ran Cheng Ping Luo

Zusammenfassung

In den letzten Jahren hat sich das gemeinsame Lernen von Video und Sprache zunehmend im Fokus der Forschung befunden. Bestehende Arbeiten konzentrieren sich jedoch hauptsächlich auf einzelne oder mehrere gekürzte Videosequenzen (Ereignisse), was während der Inferenz notwendige menschliche Annotationen von Ereignisgrenzen erfordert. Um diese Abhängigkeit zu überwinden, schlagen wir ein fundiertes Sehen-Sprache-Lernframework für ungeschnittene Videos vor, das informative Ereignisse automatisch erkennt und effektiv die Übereinstimmungen zwischen mehrsatzbasierten Beschreibungen und den entsprechenden Ereignissegmenten aufdeckt. Anstatt grobe Video-Sprach-Übereinstimmungen zu betrachten, präsentieren wir zwei duale Vorab-Aufgaben, um feingranulare Segment-Übereinstimmungen zu fördern: Text-zu-Ereignis-Anbindung (TEG) und Ereignis-zu-Text-Generierung (ETG). TEG lernt, unter Berücksichtigung eines Satzensegments die möglichen Ereignisanbindungen durch Schätzung des multimodalen Abstands in einem gemeinsamen semantischen Raum anzuwenden. Gleichzeitig zielt ETG darauf ab, die übereinstimmenden Texte bei gegebenen Ereignisanbindungen wiederherzustellen (zu generieren), wodurch die Ereignisdarstellung angeregt wird, bedeutungsvolle semantische Informationen beizubehalten. Um eine genaue Zuordnung von Ereignissen zu Texten zu fördern, schlagen wir eine neuartige semantikbasierte Kostenfunktion vor, um suboptimale Zuordnungsresultate aufgrund unscharfer Grenzannotationen zu mildern. Unser Framework ist leicht erweiterbar auf Aufgaben im Bereich visuell fundierter Sprachverarbeitung und -generierung. Wir erreichen state-of-the-art Leistungen in der dichten Videobeschreibung auf ActivityNet Captions, YouCook2 und YouMakeup sowie wettbewerbsfähige Leistungen bei mehreren anderen Sprachgenerierungs- und -verstehensaufgaben. Unsere Methode belegte zudem den ersten Platz sowohl in den MTVG- als auch in den MDVC-Aufgaben des PIC 4th Challenge. Unser Code ist öffentlich zugänglich unter https://github.com/zjr2000/GVL.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp