TarViS: Ein einheitlicher Ansatz für die zielbasierte Video-Segmentierung

Das allgemeine Gebiet der Videosegmentierung ist derzeit in verschiedene Aufgaben aufgeteilt, die sich über mehrere Benchmarks erstrecken. Trotz des raschen Fortschritts im Bereich der aktuellen Methoden sind diese überwiegend auf spezifische Aufgaben ausgerichtet und können konzeptionell nicht auf andere Aufgaben verallgemeinert werden. Inspiriert von jüngsten Ansätzen mit mehreren Aufgabenfähigkeiten, schlagen wir TarViS vor: eine neuartige, einheitliche Netzarchitektur, die auf jede Aufgabe angewendet werden kann, die das Segmentieren einer Reihe willkürlich definierter "Ziele" in Videos erfordert. Unser Ansatz ist flexibel hinsichtlich der Art und Weise, wie die Aufgaben diese Ziele definieren, da er letztere als abstrakte "Abfragen" modelliert, die dann verwendet werden, um pixelgenaue Zielmasken vorherzusagen. Ein einzelnes TarViS-Modell kann gemeinsam an einer Sammlung von Datensätzen trainiert werden, die sich auf verschiedene Aufgaben beziehen, und während der Inferenz zwischen den Aufgaben wechseln, ohne für spezifische Aufgaben erneut trainiert zu werden. Um ihre Effektivität zu demonstrieren, wenden wir TarViS auf vier verschiedene Aufgaben an: Video-Instanzsegmentierung (VIS), Video-Panoptik-Segmentierung (VPS), Video-Objektsegmentierung (VOS) und punktgesteuerte Verfolgung (PET). Unser einheitliches Modell, das gemeinsam trainiert wurde, erreicht Spitzenleistungen in 5 von 7 Benchmarks, die diese vier Aufgaben umfassen, und wettbewerbsfähige Leistungen in den beiden verbleibenden. Der Quellcode und die Modellgewichte sind unter folgender URL verfügbar: https://github.com/Ali2500/TarViS