HyperAIHyperAI

Command Palette

Search for a command to run...

CAT: Verbesserung multimodaler großer Sprachmodelle zur Beantwortung von Fragen in dynamischen audiovisuellen Szenarien

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

Zusammenfassung

Dieses Papier konzentriert sich auf die Herausforderung, Fragen in Szenarien zu beantworten, die aus reichen und komplexen dynamischen audiovisuellen Komponenten bestehen. Obwohl existierende multimodale große Sprachmodelle (MLLMs) auf audiovisuelle Inhalte antworten können, sind diese Antworten manchmal unklar und scheitern daran, spezifische audiovisuelle Ereignisse zu beschreiben. Um diese Einschränkung zu überwinden, stellen wir CAT vor, das MLLM in drei Aspekten verbessert: 1) Neben der direkten Verknüpfung von Audio und Video haben wir einen Hinweisaggregator entwickelt, der fragebezogene Hinweise in dynamischen audiovisuellen Szenarien sammelt, um das detaillierte Wissen zu erweitern, das für große Sprachmodelle erforderlich ist. 2) CAT wird auf einem gemischten multimodalen Datensatz trainiert, was eine direkte Anwendung in audiovisuellen Szenarien ermöglicht. Besonders erwähnenswert ist die Erstellung eines audiovisuellen gemeinsamen Instruktionssatzes namens AVinstruct (Audio-Visual Instruction Dataset), der dazu beiträgt, die Fähigkeit von CAT zur Modellierung von semantischen Korrelationen weiter zu verbessern. 3) Wir schlagen eine künstlich-intelligenzgestützte Optimierung der Präferenz bei Unsicherheiten vor, eine Strategie, die darauf abzielt, das Modell neu zu trainieren, um unmissverständliche Antworten zu bevorzugen und die Fähigkeit zur Lokalisierung spezifischer audiovisueller Objekte zu verbessern. Ausführliche experimentelle Ergebnisse zeigen, dass CAT bestehende Methoden bei multimodal gestellten Aufgaben übertrifft, insbesondere bei Aufgaben des Audio-Visual Question Answering (AVQA). Der Code und die gesammelten Instruktionen werden unter https://github.com/rikeilong/Bay-CAT veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp