vor 8 Monaten

Zusammenfassung

Dieses Papier konzentriert sich auf die Herausforderung, Fragen in Szenarien zu beantworten, die aus reichen und komplexen dynamischen audiovisuellen Komponenten bestehen. Obwohl existierende multimodale große Sprachmodelle (MLLMs) auf audiovisuelle Inhalte antworten können, sind diese Antworten manchmal unklar und scheitern daran, spezifische audiovisuelle Ereignisse zu beschreiben. Um diese Einschränkung zu überwinden, stellen wir CAT vor, das MLLM in drei Aspekten verbessert: 1) Neben der direkten Verknüpfung von Audio und Video haben wir einen Hinweisaggregator entwickelt, der fragebezogene Hinweise in dynamischen audiovisuellen Szenarien sammelt, um das detaillierte Wissen zu erweitern, das für große Sprachmodelle erforderlich ist. 2) CAT wird auf einem gemischten multimodalen Datensatz trainiert, was eine direkte Anwendung in audiovisuellen Szenarien ermöglicht. Besonders erwähnenswert ist die Erstellung eines audiovisuellen gemeinsamen Instruktionssatzes namens AVinstruct (Audio-Visual Instruction Dataset), der dazu beiträgt, die Fähigkeit von CAT zur Modellierung von semantischen Korrelationen weiter zu verbessern. 3) Wir schlagen eine künstlich-intelligenzgestützte Optimierung der Präferenz bei Unsicherheiten vor, eine Strategie, die darauf abzielt, das Modell neu zu trainieren, um unmissverständliche Antworten zu bevorzugen und die Fähigkeit zur Lokalisierung spezifischer audiovisueller Objekte zu verbessern. Ausführliche experimentelle Ergebnisse zeigen, dass CAT bestehende Methoden bei multimodal gestellten Aufgaben übertrifft, insbesondere bei Aufgaben des Audio-Visual Question Answering (AVQA). Der Code und die gesammelten Instruktionen werden unter https://github.com/rikeilong/Bay-CAT veröffentlicht.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Visuelle Fragebeantwortung

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Visuelle Fragebeantwortung

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

CAT: Verbesserung multimodaler großer Sprachmodelle zur Beantwortung von Fragen in dynamischen audiovisuellen Szenarien

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CAT: Verbesserung multimodaler großer Sprachmodelle zur Beantwortung von Fragen in dynamischen audiovisuellen Szenarien

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CAT: Verbesserung multimodaler großer Sprachmodelle zur Beantwortung von Fragen in dynamischen audiovisuellen Szenarien

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters