MiniGPT4-Video: Die Weiterentwicklung multimodaler LLMs für die Videobearbeitung durch eingefügte visuelle und textuelle Token

Dieses Papier stellt MiniGPT4-Video vor, ein multimodales großes Sprachmodell (LLM), das speziell für die Videoverarbeitung entwickelt wurde. Das Modell ist in der Lage, sowohl zeitliche visuelle als auch textuelle Daten zu verarbeiten, was es befähigt, die Komplexitäten von Videos zu verstehen. Aufbauend auf dem Erfolg von MiniGPT-v2, das sich durch die Übersetzung visueller Merkmale in den Bereich der großen Sprachmodelle für einzelne Bilder hervorgetan hat und beeindruckende Ergebnisse bei verschiedenen Bild-Text-Benchmarks erzielt hat, erweitert dieses Papier die Fähigkeiten des Modells zur Verarbeitung einer Folge von Bildern, um es zum Verstehen von Videos zu befähigen. MiniGPT4-Video berücksichtigt nicht nur visuelle Inhalte, sondern integriert auch textbasierte Konversationen, wodurch das Modell effektiv Anfragen beantworten kann, die sowohl visuelle als auch textuelle Komponenten umfassen. Das vorgeschlagene Modell übertrifft bestehende Methoden auf dem Stand der Technik und erzielt Verbesserungen von 4,22 %, 1,13 %, 20,82 % und 13,1 % bei den Benchmarks MSVD, MSRVTT, TGIF und TVQA jeweils. Unsere Modelle und Code sind öffentlich verfügbar unter: https://vision-cair.github.io/MiniGPT4-video/