HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-MR: Große Sprach- und Bild-Assistent für die Video-Moment-Retrieval

Weiheng Lu Jian Li* An Yu Ming-Ching Chang Shengpeng Ji Min Xia

Zusammenfassung

Multimodale Large Language Models (MLLMs) werden weit verbreitet für visuelle Wahrnehmung, Verständnis und Schlussfolgerung eingesetzt. Dennoch bleiben die Verarbeitung langer Videos und die präzise Momentretrival aufgrund der begrenzten Kontextgröße und der grobkörnigen Bilderrahmenextraktion bei LLMs herausfordernd. Wir schlagen den Large Language-and-Vision Assistant for Moment Retrieval (LLaVA-MR) vor, der es ermöglicht, genaue Momentretrievals und kontextbezogene Grundierungen in Videos mit MLLMs durchzuführen. LLaVA-MR kombiniert Dense Frame and Time Encoding (DFTE) zur räumlich-zeitlichen Merkmalsextraktion, Informative Frame Selection (IFS) zur Erfassung kurzer visueller und Bewegungsmuster sowie Dynamic Token Compression (DTC), um die Kontextbegrenzungen von LLMs zu bewältigen. Auswertungen an Benchmarks wie Charades-STA und QVHighlights zeigen, dass LLaVA-MR 11 Stand-of-the-Art-Methoden übertrifft und eine Verbesserung von 1,82 % in R1@0,5 und 1,29 % in mAP@0,5 im QVHighlights-Datensatz erzielt. Unsere Implementierung wird bei Annahme offengelegt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LLaVA-MR: Große Sprach- und Bild-Assistent für die Video-Moment-Retrieval | Paper | HyperAI