HyperAIHyperAI
vor 2 Monaten

CAT: Verbesserung multimodaler großer Sprachmodelle zur Beantwortung von Fragen in dynamischen audiovisuellen Szenarien

Qilang Ye; Zitong Yu; Rui Shao; Xinyu Xie; Philip Torr; Xiaochun Cao
CAT: Verbesserung multimodaler großer Sprachmodelle zur Beantwortung von Fragen in dynamischen audiovisuellen Szenarien
Abstract

Dieses Papier konzentriert sich auf die Herausforderung, Fragen in Szenarien zu beantworten, die aus reichen und komplexen dynamischen audiovisuellen Komponenten bestehen. Obwohl existierende multimodale große Sprachmodelle (MLLMs) auf audiovisuelle Inhalte antworten können, sind diese Antworten manchmal unklar und scheitern daran, spezifische audiovisuelle Ereignisse zu beschreiben. Um diese Einschränkung zu überwinden, stellen wir CAT vor, das MLLM in drei Aspekten verbessert: 1) Neben der direkten Verknüpfung von Audio und Video haben wir einen Hinweisaggregator entwickelt, der fragebezogene Hinweise in dynamischen audiovisuellen Szenarien sammelt, um das detaillierte Wissen zu erweitern, das für große Sprachmodelle erforderlich ist. 2) CAT wird auf einem gemischten multimodalen Datensatz trainiert, was eine direkte Anwendung in audiovisuellen Szenarien ermöglicht. Besonders erwähnenswert ist die Erstellung eines audiovisuellen gemeinsamen Instruktionssatzes namens AVinstruct (Audio-Visual Instruction Dataset), der dazu beiträgt, die Fähigkeit von CAT zur Modellierung von semantischen Korrelationen weiter zu verbessern. 3) Wir schlagen eine künstlich-intelligenzgestützte Optimierung der Präferenz bei Unsicherheiten vor, eine Strategie, die darauf abzielt, das Modell neu zu trainieren, um unmissverständliche Antworten zu bevorzugen und die Fähigkeit zur Lokalisierung spezifischer audiovisueller Objekte zu verbessern. Ausführliche experimentelle Ergebnisse zeigen, dass CAT bestehende Methoden bei multimodal gestellten Aufgaben übertrifft, insbesondere bei Aufgaben des Audio-Visual Question Answering (AVQA). Der Code und die gesammelten Instruktionen werden unter https://github.com/rikeilong/Bay-CAT veröffentlicht.

CAT: Verbesserung multimodaler großer Sprachmodelle zur Beantwortung von Fragen in dynamischen audiovisuellen Szenarien | Neueste Forschungsarbeiten | HyperAI