Expression Prompt Collaboration Transformer für universelle referierende Videoobjektsegmentierung

Audio-gesteuerte Video-Objekt-Segmentation (A-VOS) und Referierende Video-Objekt-Segmentation (R-VOS) sind zwei eng verwandte Aufgaben, die beide darauf abzielen, spezifische Objekte aus Videosequenzen basierend auf sprachlichen Ausdrucksanweisungen zu segmentieren. Aufgrund der Herausforderungen bei der Modellierung von Darstellungen unterschiedlicher Modalitäten stoßen bestehende Methoden jedoch oft auf Schwierigkeiten, ein Gleichgewicht zwischen Interaktionsflexibilität und Lokalisierungsgenauigkeit zu finden. In diesem Paper greifen wir dieses Problem aus zwei Perspektiven an: der Alignment zwischen Audio und Text sowie der tiefen Wechselwirkung zwischen Audio, Text und visuellen Modalitäten. Zunächst stellen wir eine universelle Architektur vor, den Expression Prompt Collaboration Transformer, kurz EPCFormer. Anschließend präsentieren wir eine Expression Alignment (EA)-Mechanismus für Audio und Text. Der vorgeschlagene EPCFormer nutzt die Tatsache aus, dass Audio- und Textanweisungen, die sich auf dasselbe Objekt beziehen, semantisch äquivalent sind, indem er kontrastives Lernen sowohl für Text- als auch für Audioausdrücke einsetzt. Um tiefe Wechselwirkungen zwischen Audio, Text und visuellen Modalitäten zu fördern, führen wir ein Expression-Visual-Attention (EVA)-Modul ein. Das Wissen über die Video-Objekt-Segmentation auf Basis sprachlicher Anweisungen kann somit nahtlos zwischen den beiden Aufgaben übertragen werden, indem komplementäre Hinweise zwischen Text und Audio tiefgreifend ausgenutzt werden. Experimente auf etablierten Benchmark-Datenbanken zeigen, dass unser EPCFormer sowohl für A-VOS als auch für R-VOS Ergebnisse auf aktuellem Stand der Technik erzielt. Der Quellcode wird öffentlich unter https://github.com/lab206/EPCFormer verfügbar gemacht.