AGSS-VOS: Attention Guided Single-Shot Video Object Segmentation

Die meisten Ansätze zur Video-Objekt-Segmentierung verarbeiten Objekte getrennt voneinander. Dies führt bei Vorhandensein mehrerer Objekte zu hohen Rechenkosten. In diesem Paper stellen wir AGSS-VOS vor, eine Methode zur Segmentierung mehrerer Objekte in einem einzigen Vorwärtsdurchlauf mittels instanzunabhängiger und instanzspezifischer Module. Die Informationen beider Module werden über einen auf Aufmerksamkeit gestützten Dekoder fusioniert, um alle Objektinstanzen gleichzeitig in einem einzigen Pfad zu segmentieren. Der gesamte Rahmen ist end-to-end trainierbar unter Verwendung einer Instanz-IoU-Verlustfunktion. Experimentelle Ergebnisse auf den Datensätzen Youtube-VOS und DAVIS-2017 zeigen, dass AGSS-VOS sowohl hinsichtlich Genauigkeit als auch Effizienz konkurrenzfähige Ergebnisse erzielt.