HyperAIHyperAI

Command Palette

Search for a command to run...

InternVideo2: Skalierung von Grundmodellen für multimodales Videoverstehen

Zusammenfassung

Wir stellen InternVideo2 vor, eine neue Familie von Video-Grundmodellen (ViFM), die den aktuellen Stand der Technik in Videoerkennung, Videotextaufgaben und videozentrierten Dialogen erreicht. Unser Kernkonzept ist ein fortschreitender Trainingsansatz, der maskiertes Video-Modellieren, multimodales kontrastives Lernen und die Vorhersage des nächsten Tokens vereint, wobei die Größe des Videoencoders auf 6 Milliarden Parameter skaliert wird. Auf Datenebene legen wir den Schwerpunkt auf räumlich-zeitliche Konsistenz durch semantisches Segmentieren von Videos und Erstellen von Video-Audio-Sprechunterschriften. Dies verbessert die Ausrichtung zwischen Video und Text. Durch umfangreiche Experimente bestätigen wir unsere Konzepte und zeigen überlegene Leistungen bei mehr als 60 Videound Audiotaufgaben. Bemerkenswert ist, dass unser Modell auf verschiedenen Benchmarks für videobezogene Dialoge und das Verstehen langer Videos andere Modelle übertrifft, was seine Fähigkeit zur Analyse und zum Verstehen längerer Kontexte unterstreicht. Der Quellcode und die Modelle sind unter https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp