vor 2 Monaten

VTG-GPT: Tuning-freies Zero-Shot-Videotemporal-Grundlagen mit GPT

Yifang Xu; Yunzhuo Sun; Zien Xie; Benxiang Zhai; Sidan Du

Abstract

Video-Temporal Grounding (VTG) zielt darauf ab, spezifische zeitliche Segmente aus einem ungeschnittenen Video basierend auf einer linguistischen Abfrage zu lokalisieren. Die meisten existierenden VTG-Modelle werden an umfangreichen annotierten Videotextpaaren trainiert, ein Prozess, der nicht nur menschliche Vorurteile durch die Abfragen einführt, sondern auch erhebliche Rechenkosten verursacht. Um diese Herausforderungen zu bewältigen, schlagen wir VTG-GPT vor, eine auf GPT basierende Methode für zero-shot VTG ohne Training oder Feinabstimmung. Um Vorurteile in der ursprünglichen Abfrage zu reduzieren, verwenden wir Baichuan2 zur Generierung von entverzerrten Abfragen. Um redundante Informationen in Videos zu verringern, wenden wir MiniGPT-v2 an, um visuelle Inhalte in präzisere Bildunterschriften zu transformieren. Schließlich entwickeln wir den Vorschlagsgenerator und das Postprocessing, um genaue Segmente aus entverzerrten Abfragen und Bildunterschriften zu erzeugen. Ausführliche Experimente zeigen, dass VTG-GPT in zero-shot-Szenarien deutlich besser als state-of-the-art-Methoden abschneidet und unsupervisierte Ansätze übertrifft. Bemerkenswerterweise erreicht es eine wettbewerbsfähige Leistung, die mit supervisierten Methoden vergleichbar ist. Der Code ist unter https://github.com/YoucanBaby/VTG-GPT verfügbar.