HyperAIHyperAI

Command Palette

Search for a command to run...

InternVideo2.5: Video-MLLMs mit langer und reicher Kontextmodellierung stärken

Unknown

Zusammenfassung

Dieses Papier zielt darauf ab, die Leistung von videobasierten multimodalen großen Sprachmodellen (MLLM) durch Modellierung langer und reicher Kontexte (LRC) zu verbessern. Im Rahmen dieser Arbeit wurde eine neue Version von InternVideo2.5 entwickelt, die sich auf die Steigerung der Fähigkeit der ursprünglichen MLLMs konzentriert, feingranulare Details wahrzunehmen und langfristige zeitliche Strukturen in Videos zu erfassen. Insbesondere integriert unser Ansatz dichte visuelle Aufgabenannotierungen in MLLMs mittels direkter Präferenzoptimierung und entwickelt kompakte räumlich-zeitliche Darstellungen durch adaptive hierarchische Token-Kompression. Experimentelle Ergebnisse zeigen, dass diese einzigartige LRC-Design die Leistung von Video-MLLMs in gängigen Videoverstehensbenchmarks (kurz und lang) erheblich verbessert, das MLLM ermöglicht, signifikant längere Videoeingaben zu speichern (mindestens 6-mal länger als die ursprüngliche Version), und spezialisierte visuelle Fähigkeiten wie Objektverfolgung und -segmentierung beherrscht. Unsere Arbeit unterstreicht die Bedeutung der Multimodalität des Kontextreichtums (Länge und Feinheit) bei der Stärkung der angeborenen Fähigkeiten von MLLMs (Fokus und Gedächtnis) und bietet neue Erkenntnisse für zukünftige Forschungen im Bereich Video-MLLM. Der Quellcode und die Modelle sind unter https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5 verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp