Video-Instanzsegmentierung mithilfe von Inter-Frame-Kommunikations-Transformern

Wir stellen eine neuartige end-to-end-Lösung für die Video-Instanzsegmentierung (VIS) auf Basis von Transformers vor. In jüngster Zeit haben per-Clip-Methoden gegenüber per-Frame-Ansätzen eine überlegene Leistung erzielt, da sie reichhaltigere Informationen aus mehreren Frames nutzen können. Allerdings erfordern bisherige per-Clip-Modelle aufgrund der notwendigen Frame-zu-Frame-Kommunikation erhebliche Rechenleistung und Speicherressourcen, was ihre praktische Anwendbarkeit einschränkt. In dieser Arbeit präsentieren wir Inter-frame Communication Transformers (IFC), die den Overhead für die Informationsübertragung zwischen Frames erheblich reduzieren, indem sie den Kontext innerhalb des Eingabeklippes effizient kodieren. Konkret schlagen wir vor, kurze Memory-Tokens als Mittel zur Übertragung von Informationen sowie zur Zusammenfassung der Szenen jedes einzelnen Frames zu nutzen. Die Merkmale jedes Frames werden durch den Austausch von Informationen zwischen präzise kodierten Memory-Tokens angereichert und mit den anderen Frames korreliert. Wir validieren unsere Methode anhand der neuesten Benchmark-Datensätze und erreichen dabei den Stand der Technik (AP 44,6 auf dem YouTube-VIS 2019 Val-Set bei Offline-Inferenz), wobei gleichzeitig eine erheblich schnellere Laufzeit (89,4 FPS) erzielt wird. Unser Ansatz lässt sich zudem für nahezu-online-Inferenz einsetzen, um Videos in Echtzeit mit nur geringer Verzögerung zu verarbeiten. Der Quellcode wird verfügbar gemacht.