HTML: Hybrid Temporal-scale Multimodal Learning Framework für die Referenz-Videoobjektsegmentierung

Die Referenz-Video-Objekt-Segmentierung (Referring Video Object Segmentation, RVOS) zielt darauf ab, eine bestimmte Objektinstanz innerhalb eines gegebenen Videos zu segmentieren, basierend auf einer textuellen Beschreibung dieses Objekts. In der offenen Welt sind die Objektbeschreibungen jedoch oft inhaltlich vielfältig und in ihrer Länge flexibel. Dies führt zu der zentralen Schwierigkeit bei RVOS: verschiedene Beschreibungen verschiedener Objekte entsprechen unterschiedlichen zeitlichen Skalen innerhalb des Videos – ein Aspekt, der von den meisten bestehenden Ansätzen mit einer einheitlichen Abtastungsschrittweite (single stride) der Frames ignoriert wird. Um dieses Problem anzugehen, schlagen wir einen prägnanten Hybrid Temporal-Skala Multimodalen Lernansatz (HTML) vor, der in der Lage ist, sprachliche und visuelle Merkmale effektiv zu alignen, um die zentralen Objektsemantiken im Video zu identifizieren, indem multimodale Interaktionen hierarchisch über verschiedene zeitliche Skalen gelernt werden. Genauer gesagt führen wir ein neuartiges inter-skalares multimodales Wahrnehmungsmodul ein, bei dem Sprachabfragen dynamisch mit visuellen Merkmalen über verschiedene zeitliche Skalen hinweg interagieren. Dadurch kann der Kontext des Videos effektiv zwischen verschiedenen Skalen übertragen werden, was die Verwirrung komplexer Objekte signifikant reduziert. Schließlich führen wir umfangreiche Experimente auf etablierten Benchmarks durch, darunter Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences und JHMDB-Sentences, wobei unser HTML auf allen diesen Datensätzen eine state-of-the-art Leistung erzielt.