HyperAIHyperAI
vor 2 Monaten

Nummerierung: Zeitliche Verankerung von Videos wie das Umblättern von Mangas

Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang
Nummerierung: Zeitliche Verankerung von Videos wie das Umblättern von Mangas
Abstract

Video-Large-Language-Models (Vid-LLMs) haben bemerkenswerte Fortschritte bei der Verarbeitung von Videoinhalten für QA-Dialoge gemacht. Allerdings haben sie Schwierigkeiten, dieses visuelle Verständnis auf Aufgaben zu erweitern, die eine präzise zeitliche Lokalisierung erfordern, was als Video-Temporal-Grounding (VTG) bekannt ist. Um diese Lücke zu schließen, stellen wir Number-Prompt (NumPro) vor, eine innovative Methode, die Vid-LLMs befähigt, visuelles Verständnis mit zeitlicher Lokalisierung zu verbinden, indem eindeutige numerische Identifikatoren jedem Videobild hinzugefügt werden. Indem ein Video als eine Folge von nummerierten Bildern behandelt wird, verwandelt NumPro VTG in einen intuitiven Prozess: das Blättern durch Manga-Seiten in einer bestimmten Reihenfolge. Dies ermöglicht es den Vid-LLMs, „Ereigniszeitleisten“ zu „lesen“ und visuelle Inhalte präzise mit entsprechenden zeitlichen Informationen zu verknüpfen. Unsere Experimente zeigen, dass NumPro die Leistungsfähigkeit der führenden Vid-LLMs bei VTG erheblich steigert, ohne zusätzliche Rechenkosten zu verursachen. Darüber hinaus definiert das Feinjustieren anhand eines NumPro-verstärkten Datensatzes einen neuen Stand der Technik für VTG und übertrifft frühere Spitzenmethoden um bis zu 6,9 % im mittleren Overlap (mIoU) für Moment-Retrieval und um 8,5 % im mittleren Durchschnittspräzision (mAP) für Highlight-Erkennung. Der Code wird unter https://github.com/yongliang-wu/NumPro zur Verfügung gestellt.

Nummerierung: Zeitliche Verankerung von Videos wie das Umblättern von Mangas | Neueste Forschungsarbeiten | HyperAI