HyperAIHyperAI

Command Palette

Search for a command to run...

Zu omnimodalen Ausdrücken und Schlussfolgerungen in der Bezugsaudio-visuellen Segmentierung

Kaining Ying Henghui Ding Guanquan Jie Yu-Gang Jiang

Zusammenfassung

Bezugsbasierte audiovisuelle Segmentierung (Referring Audio-Visual Segmentation, RAVS) hat in letzter Zeit erhebliche Fortschritte gemacht, dennoch bestehen weiterhin Herausforderungen bei der Integration multimodaler Informationen sowie bei der tiefgehenden Verständnis- und Schlussfolgerungsfähigkeit bezüglich audiovisuellen Inhalten. Um die Grenzen der RAVS zu erweitern und zukünftige Forschung in diesem Bereich zu fördern, stellen wir OmniAVS vor – ein neues Datenset mit 2.098 Videos und 59.458 multimodalen Bezugsausdrücken. OmniAVS zeichnet sich durch drei zentrale Innovationen aus: (1) Acht Arten multimodaler Ausdrücke, die flexibel Text, Sprache, Geräusche und visuelle Hinweise kombinieren; (2) einen Fokus auf das Verständnis audiovisueller Inhalte jenseits der bloßen Detektion ihrer Anwesenheit; und (3) die Einbeziehung komplexer Schlussfolgerungen und Weltwissen in den Ausdrücken. Darüber hinaus führen wir den Omnimodalen Instruierten Segmentierungs-Assistenten (OISA) ein, um die Herausforderungen der multimodalen Schlussfolgerung und der feinabgestimmten Verarbeitung audiovisueller Inhalte in OmniAVS zu bewältigen. OISA nutzt multimodale große Sprachmodelle (MLLM), um komplexe Hinweise zu erfassen und segmentierungsorientierte Schlussfolgerungen durchzuführen. Umfangreiche Experimente zeigen, dass OISA gegenüber bestehenden Methoden auf OmniAVS übertrifft und zudem konkurrenzfähige Ergebnisse bei anderen verwandten Aufgaben erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zu omnimodalen Ausdrücken und Schlussfolgerungen in der Bezugsaudio-visuellen Segmentierung | Paper | HyperAI