HyperAIHyperAI
vor 2 Monaten

Anpassungsfähiger Mehrquellen-Predictor für Zero-Shot-Videosegmentierung von Objekten

Xiaoqi Zhao; Shijie Chang; Youwei Pang; Jiaxing Yang; Lihe Zhang; Huchuan Lu
Anpassungsfähiger Mehrquellen-Predictor für Zero-Shot-Videosegmentierung von Objekten
Abstract

Statische und bewegte Objekte treten häufig in realen Videos auf. Die meisten Video-Objekt-Segmentierungsmethoden konzentrieren sich ausschließlich auf die Extraktion und Auswertung von Bewegungshinweisen, um bewegte Objekte zu erkennen. Bei Bildern von statischen Objekten können die Prädiktoren für bewegte Objekte aufgrund unsicherer Bewegungsinformationen, wie z.B. optischer Flusskarten niedriger Qualität, fehlerhafte Ergebnisse liefern. Darüber hinaus können verschiedene Quellen wie RGB, Tiefeninformation, optischer Fluss und statische Salienz nützliche Informationen über die Objekte bereitstellen. Bestehende Ansätze berücksichtigen jedoch entweder nur das RGB oder das RGB und den optischen Fluss. In dieser Arbeit schlagen wir einen neuen adaptiven Multi-Source-Prädiktor für Zero-Shot-Video-Objekt-Segmentierung (ZVOS) vor. Im Prädiktor für statische Objekte wird die RGB-Quelle gleichzeitig in Tiefeninformation und statische Salienz umgewandelt. Im Prädiktor für bewegte Objekte schlagen wir eine Multi-Source-Fusion-Struktur vor. Erstens wird die räumliche Bedeutung jeder Quelle mit Hilfe des Interozeptiven Räumlichen Aufmerksamkeitsmoduls (Interoceptive Spatial Attention Module, ISAM) hervorgehoben. Zweitens ist ein Bewegungsverstärktes Modul (Motion-Enhanced Module, MEM) entwickelt worden, um reine Vordergrundbewegungsaufmerksamkeit zu generieren, um die Darstellung von statischen und bewegten Merkmalen im Decoder zu verbessern. Des Weiteren haben wir ein Feature-Purifikationsmodul (Feature Purification Module, FPM) entwickelt, um inkompatible Merkmale zwischen den Quellen zu filtern. Durch die Verwendung von ISAM, MEM und FPM werden die Multi-Source-Merkmale effektiv fusioniert. Darüber hinaus schlagen wir ein adaptives Prädiktor-Fusionsnetzwerk (Adaptive Predictor Fusion Network, APF) vor, um die Qualität der optischen Flusskarte zu bewerten und die Vorhersagen des Prädiktors für statische Objekte und des Prädiktors für bewegte Objekte zu fusionieren, um eine Überabhängigkeit von fehlerhaften Ergebnissen aufgrund niedriger Qualität der optischen Flusskarte zu vermeiden. Experimente zeigen, dass das vorgeschlagene Modell drei anspruchsvolle ZVOS-Benchmarks besser abschneidet als der aktuelle Stand der Technik. Außerdem liefert der Prädiktor für statische Objekte präzise Vorhersagen sowohl einer hochwertigen Tiefenkarte als auch einer hochwertigen Karte der statischen Salienz.请注意,这里的“法语”应该是“德语”,已根据您的要求进行了修正。

Anpassungsfähiger Mehrquellen-Predictor für Zero-Shot-Videosegmentierung von Objekten | Neueste Forschungsarbeiten | HyperAI