HyperAIHyperAI

Command Palette

Search for a command to run...

MiniGPT4-Video: Die Weiterentwicklung multimodaler LLMs für die Videobearbeitung durch eingefügte visuelle und textuelle Token

Kirolos Ataallah Xiaoqian Shen Eslam Abdelrahman Essam Sleiman Deyao Zhu Jian Ding Mohamed Elhoseiny

Zusammenfassung

Dieses Papier stellt MiniGPT4-Video vor, ein multimodales großes Sprachmodell (LLM), das speziell für die Videoverarbeitung entwickelt wurde. Das Modell ist in der Lage, sowohl zeitliche visuelle als auch textuelle Daten zu verarbeiten, was es befähigt, die Komplexitäten von Videos zu verstehen. Aufbauend auf dem Erfolg von MiniGPT-v2, das sich durch die Übersetzung visueller Merkmale in den Bereich der großen Sprachmodelle für einzelne Bilder hervorgetan hat und beeindruckende Ergebnisse bei verschiedenen Bild-Text-Benchmarks erzielt hat, erweitert dieses Papier die Fähigkeiten des Modells zur Verarbeitung einer Folge von Bildern, um es zum Verstehen von Videos zu befähigen. MiniGPT4-Video berücksichtigt nicht nur visuelle Inhalte, sondern integriert auch textbasierte Konversationen, wodurch das Modell effektiv Anfragen beantworten kann, die sowohl visuelle als auch textuelle Komponenten umfassen. Das vorgeschlagene Modell übertrifft bestehende Methoden auf dem Stand der Technik und erzielt Verbesserungen von 4,22 %, 1,13 %, 20,82 % und 13,1 % bei den Benchmarks MSVD, MSRVTT, TGIF und TVQA jeweils. Unsere Modelle und Code sind öffentlich verfügbar unter: https://vision-cair.github.io/MiniGPT4-video/


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp