HyperAIHyperAI

Command Palette

Search for a command to run...

Kwai Keye-VL Technischer Bericht

Zusammenfassung

Während Multimodale Große Sprachmodelle (MLLMs) bemerkenswerte Fähigkeiten bei statischen Bildern zeigen, fallen sie oft bei der Verarbeitung dynamischer, informationsreicher Kurzform-Videos hinterher, die ein dominantes Medium im heutigen digitalen Landschaft sind. Um diese Lücke zu schließen, stellen wir Kwai Keye-VL vor, ein 8-Milliarden-Parameter-Multimodell, das für leistungsstarke Kurzvideo-Verarbeitung entwickelt wurde und dabei robuste allgemeine visuelle-sprachliche Fähigkeiten beibehält. Die Entwicklung von Keye-VL basiert auf zwei zentralen Säulen: einem massiven, hochwertigen Datensatz mit über 600 Milliarden Token und einem starken Fokus auf Videos sowie einer innovativen Trainingsmethode. Diese Methode umfasst einen vierstufigen Vortrainingsprozess zur sicheren Ausrichtung von Vision und Sprache, gefolgt von einem sorgfältigen zweiphasigen Nachtrainingsprozess. Die erste Nachtrainingphase verbessert grundlegende Fähigkeiten wie die Befolgung von Anweisungen, während die zweite Phase sich auf die Förderung fortgeschrittener Schlussfolgerungen konzentriert. Ein wesentlicher Innovationsaspekt in dieser zweiten Phase ist unsere fünfmodale „Cold-Start“-Datenmischung, die „Denken“, „Nicht-Denken“, „Auto-Denken“, „Denken mit Bild“ und hochwertige Videodaten umfasst. Diese Mischung lehrt das Modell, wann und wie es Schlussfolgerungen ziehen soll. Nachfolgende Schritte des verstärkenden Lernens (RL) und der Ausrichtung verbessern diese Schlussfolgerungsfähigkeiten weiter und korrigieren abnormes Modellverhalten, wie zum Beispiel wiederholte Ausgaben. Um unseren Ansatz zu validieren, führen wir umfangreiche Evaluierungen durch, die zeigen, dass Keye-VL den aktuellen Stand der Technik auf öffentlichen Video-Benchmarks erreicht und bei allgemeinen bildbasierten Aufgaben hoch wettbewerbsfähig bleibt (Abbildung 1). Darüber hinaus entwickeln und veröffentlichen wir das KC-MMBench, eine neue Benchmark-Suite für realweltliche Kurzvideo-Szenarien, in denen Keye-VL einen deutlichen Vorteil zeigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp