Zu omnimodalen Ausdrücken und Schlussfolgerungen in der Bezugsaudio-visuellen Segmentierung

Bezugsbasierte audiovisuelle Segmentierung (Referring Audio-Visual Segmentation, RAVS) hat in letzter Zeit erhebliche Fortschritte gemacht, dennoch bestehen weiterhin Herausforderungen bei der Integration multimodaler Informationen sowie bei der tiefgehenden Verständnis- und Schlussfolgerungsfähigkeit bezüglich audiovisuellen Inhalten. Um die Grenzen der RAVS zu erweitern und zukünftige Forschung in diesem Bereich zu fördern, stellen wir OmniAVS vor – ein neues Datenset mit 2.098 Videos und 59.458 multimodalen Bezugsausdrücken. OmniAVS zeichnet sich durch drei zentrale Innovationen aus: (1) Acht Arten multimodaler Ausdrücke, die flexibel Text, Sprache, Geräusche und visuelle Hinweise kombinieren; (2) einen Fokus auf das Verständnis audiovisueller Inhalte jenseits der bloßen Detektion ihrer Anwesenheit; und (3) die Einbeziehung komplexer Schlussfolgerungen und Weltwissen in den Ausdrücken. Darüber hinaus führen wir den Omnimodalen Instruierten Segmentierungs-Assistenten (OISA) ein, um die Herausforderungen der multimodalen Schlussfolgerung und der feinabgestimmten Verarbeitung audiovisueller Inhalte in OmniAVS zu bewältigen. OISA nutzt multimodale große Sprachmodelle (MLLM), um komplexe Hinweise zu erfassen und segmentierungsorientierte Schlussfolgerungen durchzuführen. Umfangreiche Experimente zeigen, dass OISA gegenüber bestehenden Methoden auf OmniAVS übertrifft und zudem konkurrenzfähige Ergebnisse bei anderen verwandten Aufgaben erzielt.