HyperAIHyperAI
vor 11 Tagen

Sprache als Abfragen für die Referenz-Videobjektssegmentierung

Jiannan Wu, Yi Jiang, Peize Sun, Zehuan Yuan, Ping Luo
Sprache als Abfragen für die Referenz-Videobjektssegmentierung
Abstract

Referenzierte Video-Objekt-Segmentierung (R-VOS) ist eine neuartige, querschnittsmäßige Aufgabe, die darauf abzielt, das durch eine sprachliche Beschreibung referierte Objekt in allen Videoframes zu segmentieren. In dieser Arbeit präsentieren wir einen einfachen und einheitlichen Ansatz, der auf Transformer basiert und als ReferFormer bezeichnet wird. Der Ansatz betrachtet die Sprache als Abfragen und greift direkt auf die relevantesten Bereiche in den Videoframes zu. Konkret führen wir eine kleine Menge von Objekt-Abfragen ein, die an die Sprache konditioniert sind und als Eingabe für den Transformer dienen. Auf diese Weise sind alle Abfragen gezwungen, ausschließlich das referierte Objekt zu finden. Diese Abfragen werden schließlich in dynamische Kerne transformiert, die entscheidende informationsreiche Objektlevel-Informationen erfassen und als Faltungsfilters zur Generierung von Segmentierungsmasken aus Merkmalskarten fungieren. Die Objektverfolgung ergibt sich natürlich durch die Verknüpfung entsprechender Abfragen über mehrere Frames hinweg. Dieser Mechanismus vereinfacht die Pipeline erheblich, und das end-to-end-Framework unterscheidet sich deutlich von früheren Ansätzen. Umfassende Experimente auf den Datensätzen Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences und JHMDB-Sentences belegen die Wirksamkeit von ReferFormer. Auf Ref-Youtube-VOS erreicht ReferFormer mit einem ResNet-50-Backbone ohne zusätzliche Optimierungen eine J&F-Score von 55,6, was die bisher beste Leistung um 8,4 Punkte übertrifft. Zudem erreicht ReferFormer mit dem leistungsfähigen Swin-Large-Backbone den besten J&F-Wert von 64,2 unter allen bisherigen Methoden. Außerdem zeigen wir beeindruckende Ergebnisse von 55,0 mAP auf A2D-Sentences und 43,7 mAP auf JHMDB-Sentences, die die vorherigen Methoden deutlich übertrumpfen. Der Quellcode ist öffentlich unter https://github.com/wjn922/ReferFormer verfügbar.

Sprache als Abfragen für die Referenz-Videobjektssegmentierung | Neueste Forschungsarbeiten | HyperAI