HyperAIHyperAI
vor 11 Tagen

Spectrum-gesteuerte Multi-Granularitäts-Bezugsvideoobjektsegmentierung

Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian
Spectrum-gesteuerte Multi-Granularitäts-Bezugsvideoobjektsegmentierung
Abstract

Aktuelle Techniken zur referenziellen Videoobjektsegmentierung (R-VOS) extrahieren bedingte Kerne aus kodierten (niedrigauflösenden) visuellen Sprachmerkmalen, um hochauflösende Merkmale zu segmentieren. Wir stellten fest, dass dies zu einer erheblichen Merkmalsabweichung führt, die die Segmentierungskerne während der Vorwärtsberechnung nur schwer wahrnehmen können. Dies beeinträchtigt negativ die Leistungsfähigkeit der Segmentierungskerne. Um dieses Problem der Merkmalsabweichung zu beheben, schlagen wir einen Spectrum-guided Multi-granularity-Ansatz (SgMg) vor, der direkt auf den kodierten Merkmalen segmentiert und visuelle Details nutzt, um die Masken weiter zu optimieren. Darüber hinaus präsentieren wir einen Spectrum-guided Cross-modal Fusion-Ansatz (SCF), der intra-frame globale Wechselwirkungen im Spektralbereich durchführt, um eine effektive multimodale Repräsentation zu ermöglichen. Schließlich erweitern wir SgMg auf die Mehrobjekt-R-VOS, ein neues Paradigma, das die gleichzeitige Segmentierung mehrerer referenzierter Objekte in einem Video ermöglicht. Dies macht R-VOS nicht nur schneller, sondern auch praktikabler. Umfangreiche Experimente zeigen, dass SgMg auf vier Video-Benchmark-Datensätzen die derzeit beste Leistung erzielt und den nächsten Konkurrenten auf Ref-YouTube-VOS um 2,8 Prozentpunkte übertrifft. Unser erweiterter SgMg-Ansatz ermöglicht Mehrobjekt-R-VOS, läuft etwa dreimal schneller und behält dabei eine zufriedenstellende Genauigkeit bei. Der Quellcode ist unter https://github.com/bo-miao/SgMg verfügbar.

Spectrum-gesteuerte Multi-Granularitäts-Bezugsvideoobjektsegmentierung | Neueste Forschungsarbeiten | HyperAI