vor 2 Monaten

GroPrompt: Effizientes Grounded Prompting und Anpassung für die Referring Video Object Segmentation

Ci-Siang Lin; I-Jieh Liu; Min-Hung Chen; Chien-Yi Wang; Sifei Liu; Yu-Chiang Frank Wang

Abstract

Referring Video Object Segmentation (RVOS) zielt darauf ab, das von der Abfrage beschriebene Objekt über die gesamte Videodauer zu segmentieren. Die meisten existierenden Methoden erfordern eine end-to-end Training mit dichten Maskenannotierungen, was rechenintensiv und weniger skalierbar sein kann. In dieser Arbeit streben wir an, Fundierungssegmentationsmodelle effizient unter schwacher Überwachung anzupassen, indem wir den vorgeschlagenen Grounded Prompting (GroPrompt)-Framework einsetzen. Genauer gesagt schlagen wir Text-Aware Prompt Contrastive Learning (TAP-CL) vor, um die Assoziation zwischen Positionsprompts und den referierenden Sätzen unter Verwendung nur von Boxüberwachungen zu verbessern. Dies beinhaltet Text-Contrastive Prompt Learning (TextCon) und Modality-Contrastive Prompt Learning (ModalCon) auf Frame- und Videoebene jeweils. Mit dem vorgeschlagenen TAP-CL kann unser GroPrompt-Framework zeitlich konsistente, aber textbewusste Positionsprompts generieren, die Orte und Bewegungen des referierten Objekts aus dem Video beschreiben. Die experimentellen Ergebnisse in den standardisierten RVOS-Benchmarks (Ref-YouTube-VOS, Ref-DAVIS17, A2D-Sentences und JHMDB-Sentences) zeigen die wettbewerbsfähige Leistung unseres vorgeschlagenen GroPrompt-Frameworks bei nur schwachen Überwachungen durch Begrenzungsrahmen.