LLaVA-MR: Große Sprach- und Bild-Assistent für die Video-Moment-Retrieval

Multimodale Large Language Models (MLLMs) werden weit verbreitet für visuelle Wahrnehmung, Verständnis und Schlussfolgerung eingesetzt. Dennoch bleiben die Verarbeitung langer Videos und die präzise Momentretrival aufgrund der begrenzten Kontextgröße und der grobkörnigen Bilderrahmenextraktion bei LLMs herausfordernd. Wir schlagen den Large Language-and-Vision Assistant for Moment Retrieval (LLaVA-MR) vor, der es ermöglicht, genaue Momentretrievals und kontextbezogene Grundierungen in Videos mit MLLMs durchzuführen. LLaVA-MR kombiniert Dense Frame and Time Encoding (DFTE) zur räumlich-zeitlichen Merkmalsextraktion, Informative Frame Selection (IFS) zur Erfassung kurzer visueller und Bewegungsmuster sowie Dynamic Token Compression (DTC), um die Kontextbegrenzungen von LLMs zu bewältigen. Auswertungen an Benchmarks wie Charades-STA und QVHighlights zeigen, dass LLaVA-MR 11 Stand-of-the-Art-Methoden übertrifft und eine Verbesserung von 1,82 % in R1@0,5 und 1,29 % in mAP@0,5 im QVHighlights-Datensatz erzielt. Unsere Implementierung wird bei Annahme offengelegt.