HyperAIHyperAI
vor 11 Tagen

End-to-End-Referierende Videoobjektssegmentierung mit Multimodalen Transformers

Adam Botach, Evgenii Zheltonozhskii, Chaim Baskin
End-to-End-Referierende Videoobjektssegmentierung mit Multimodalen Transformers
Abstract

Die Aufgabe der referenziellen Video-Objektsegmentierung (RVOS) besteht darin, ein durch einen Text beschriebenes Objekt in den Frames eines gegebenen Videos zu segmentieren. Aufgrund der komplexen Natur dieser multimodalen Aufgabe, die Text-Reasoning, Video-Verständnis, Instance-Segmentierung und Tracking kombiniert, basieren herkömmliche Ansätze typischerweise auf aufwändigen, mehrstufigen Pipelines. In diesem Paper stellen wir einen einfachen, auf Transformers basierenden Ansatz für die RVOS vor. Unser Framework, namens Multimodal Tracking Transformer (MTTR), modelliert die RVOS-Aufgabe als Sequenzvorhersageproblem. Angesichts jüngster Fortschritte in der Computer Vision und Natural Language Processing beruht MTTR auf der Erkenntnis, dass Video- und Textinformationen effizient und elegant durch ein einziges multimodales Transformer-Modell gemeinsam verarbeitet werden können. MTTR ist end-to-end trainierbar, frei von textbezogenen induktiven Voreingenommenheiten und erfordert keine zusätzlichen Nachbearbeitungsschritte zur Maskenverfeinerung. Dadurch vereinfacht es die RVOS-Pipeline erheblich gegenüber bestehenden Methoden. Evaluierungen auf Standardbenchmarks zeigen, dass MTTR gegenüber vorherigen State-of-the-Art-Verfahren in mehreren Metriken deutlich übertrifft. Insbesondere erzielt MTTR beeindruckende Verbesserungen um +5,7 und +5,0 mAP auf den Datensätzen A2D-Sentences und JHMDB-Sentences, wobei eine Verarbeitungsgeschwindigkeit von 76 Frames pro Sekunde erreicht wird. Zudem präsentieren wir starke Ergebnisse auf dem öffentlichen Validierungsset von Refer-YouTube-VOS, einem anspruchsvolleren RVOS-Datensatz, der bisher noch nicht ausreichend von der Forschergemeinschaft beachtet wurde. Der Quellcode zur Reproduktion unserer Experimente ist unter https://github.com/mttr2021/MTTR verfügbar.

End-to-End-Referierende Videoobjektssegmentierung mit Multimodalen Transformers | Neueste Forschungsarbeiten | HyperAI