HyperAIHyperAI

Command Palette

Search for a command to run...

VTG-GPT: Tuning-freies Zero-Shot-Videotemporal-Grundlagen mit GPT

Yifang Xu Yunzhuo Sun Zien Xie Benxiang Zhai Sidan Du

Zusammenfassung

Video-Temporal Grounding (VTG) zielt darauf ab, spezifische zeitliche Segmente aus einem ungeschnittenen Video basierend auf einer linguistischen Abfrage zu lokalisieren. Die meisten existierenden VTG-Modelle werden an umfangreichen annotierten Videotextpaaren trainiert, ein Prozess, der nicht nur menschliche Vorurteile durch die Abfragen einführt, sondern auch erhebliche Rechenkosten verursacht. Um diese Herausforderungen zu bewältigen, schlagen wir VTG-GPT vor, eine auf GPT basierende Methode für zero-shot VTG ohne Training oder Feinabstimmung. Um Vorurteile in der ursprünglichen Abfrage zu reduzieren, verwenden wir Baichuan2 zur Generierung von entverzerrten Abfragen. Um redundante Informationen in Videos zu verringern, wenden wir MiniGPT-v2 an, um visuelle Inhalte in präzisere Bildunterschriften zu transformieren. Schließlich entwickeln wir den Vorschlagsgenerator und das Postprocessing, um genaue Segmente aus entverzerrten Abfragen und Bildunterschriften zu erzeugen. Ausführliche Experimente zeigen, dass VTG-GPT in zero-shot-Szenarien deutlich besser als state-of-the-art-Methoden abschneidet und unsupervisierte Ansätze übertrifft. Bemerkenswerterweise erreicht es eine wettbewerbsfähige Leistung, die mit supervisierten Methoden vergleichbar ist. Der Code ist unter https://github.com/YoucanBaby/VTG-GPT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp