HyperAIHyperAI

Command Palette

Search for a command to run...

Nummerierung: Zeitliche Verankerung von Videos wie das Umblättern von Mangas

Yongliang Wu Xinting Hu Yuyang Sun Yizhou Zhou Wenbo Zhu Fengyun Rao Bernt Schiele Xu Yang

Zusammenfassung

Video-Large-Language-Models (Vid-LLMs) haben bemerkenswerte Fortschritte bei der Verarbeitung von Videoinhalten für QA-Dialoge gemacht. Allerdings haben sie Schwierigkeiten, dieses visuelle Verständnis auf Aufgaben zu erweitern, die eine präzise zeitliche Lokalisierung erfordern, was als Video-Temporal-Grounding (VTG) bekannt ist. Um diese Lücke zu schließen, stellen wir Number-Prompt (NumPro) vor, eine innovative Methode, die Vid-LLMs befähigt, visuelles Verständnis mit zeitlicher Lokalisierung zu verbinden, indem eindeutige numerische Identifikatoren jedem Videobild hinzugefügt werden. Indem ein Video als eine Folge von nummerierten Bildern behandelt wird, verwandelt NumPro VTG in einen intuitiven Prozess: das Blättern durch Manga-Seiten in einer bestimmten Reihenfolge. Dies ermöglicht es den Vid-LLMs, „Ereigniszeitleisten“ zu „lesen“ und visuelle Inhalte präzise mit entsprechenden zeitlichen Informationen zu verknüpfen. Unsere Experimente zeigen, dass NumPro die Leistungsfähigkeit der führenden Vid-LLMs bei VTG erheblich steigert, ohne zusätzliche Rechenkosten zu verursachen. Darüber hinaus definiert das Feinjustieren anhand eines NumPro-verstärkten Datensatzes einen neuen Stand der Technik für VTG und übertrifft frühere Spitzenmethoden um bis zu 6,9 % im mittleren Overlap (mIoU) für Moment-Retrieval und um 8,5 % im mittleren Durchschnittspräzision (mAP) für Highlight-Erkennung. Der Code wird unter https://github.com/yongliang-wu/NumPro zur Verfügung gestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp