HyperAIHyperAI

Command Palette

Search for a command to run...

MovieChat+: frageorientierte spärliche Speicherung für die Antwort auf Fragen zu langen Videos

Enxin Song Wenhao Chai Tian Ye Jenq-Neng Hwang Xi Li Gaoang Wang

Zusammenfassung

Kürzlich ermöglicht die Integration von Video-Grundmodellen und großen Sprachmodellen die Entwicklung von Video-Verständnissystemen, die die Einschränkungen spezifischer, vordefinierter visueller Aufgaben überwinden können. Bestehende Ansätze setzen entweder auf komplexe räumlich-zeitliche Module oder verlassen sich stark auf zusätzliche Wahrnehmungsmodelle zur Extraktion zeitlicher Merkmale für das Video-Verständnis und zeigen lediglich gute Leistung bei kurzen Videos. Bei langen Videos steigen die rechnerische Komplexität und die Speicherkosten aufgrund langfristiger zeitlicher Verbindungen erheblich und stellen zusätzliche Herausforderungen dar. Ausnutzend des Atkinson-Shiffrin-Gedächtnismodells, bei dem Tokens in Transformers als Träger von Gedächtnisinhalten dienen und in Kombination mit unserem speziell entwickelten Gedächtnismechanismus eingesetzt werden, schlagen wir MovieChat vor, um diese Herausforderungen zu bewältigen. Wir erweitern vortrainierte multimodale große Sprachmodelle zur Verarbeitung langer Videos, ohne zusätzliche trainierbare zeitliche Module einzubinden, und verwenden dabei einen Zero-Shot-Ansatz. MovieChat erreicht eine state-of-the-art-Leistung im Verständnis langer Videos und wird begleitet von der veröffentlichten MovieChat-1K-Benchmark-Datenbank mit 1.000 langen Videos, 2.000 zeitlichen Grundlagen-Etiketten und 14.000 manuellen Annotationen zur Validierung der Wirksamkeit unserer Methode. Der Quellcode sowie die Datensätze sind über folgenden Link zugänglich: https://github.com/rese1f/MovieChat.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MovieChat+: frageorientierte spärliche Speicherung für die Antwort auf Fragen zu langen Videos | Paper | HyperAI