Kwai Keye-VL Technischer Bericht

Während Multimodale Große Sprachmodelle (MLLMs) bemerkenswerte Fähigkeiten bei statischen Bildern zeigen, fallen sie oft bei der Verarbeitung dynamischer, informationsreicher Kurzform-Videos hinterher, die ein dominantes Medium im heutigen digitalen Landschaft sind. Um diese Lücke zu schließen, stellen wir Kwai Keye-VL vor, ein 8-Milliarden-Parameter-Multimodell, das für leistungsstarke Kurzvideo-Verarbeitung entwickelt wurde und dabei robuste allgemeine visuelle-sprachliche Fähigkeiten beibehält. Die Entwicklung von Keye-VL basiert auf zwei zentralen Säulen: einem massiven, hochwertigen Datensatz mit über 600 Milliarden Token und einem starken Fokus auf Videos sowie einer innovativen Trainingsmethode. Diese Methode umfasst einen vierstufigen Vortrainingsprozess zur sicheren Ausrichtung von Vision und Sprache, gefolgt von einem sorgfältigen zweiphasigen Nachtrainingsprozess. Die erste Nachtrainingphase verbessert grundlegende Fähigkeiten wie die Befolgung von Anweisungen, während die zweite Phase sich auf die Förderung fortgeschrittener Schlussfolgerungen konzentriert. Ein wesentlicher Innovationsaspekt in dieser zweiten Phase ist unsere fünfmodale „Cold-Start“-Datenmischung, die „Denken“, „Nicht-Denken“, „Auto-Denken“, „Denken mit Bild“ und hochwertige Videodaten umfasst. Diese Mischung lehrt das Modell, wann und wie es Schlussfolgerungen ziehen soll. Nachfolgende Schritte des verstärkenden Lernens (RL) und der Ausrichtung verbessern diese Schlussfolgerungsfähigkeiten weiter und korrigieren abnormes Modellverhalten, wie zum Beispiel wiederholte Ausgaben. Um unseren Ansatz zu validieren, führen wir umfangreiche Evaluierungen durch, die zeigen, dass Keye-VL den aktuellen Stand der Technik auf öffentlichen Video-Benchmarks erreicht und bei allgemeinen bildbasierten Aufgaben hoch wettbewerbsfähig bleibt (Abbildung 1). Darüber hinaus entwickeln und veröffentlichen wir das KC-MMBench, eine neue Benchmark-Suite für realweltliche Kurzvideo-Szenarien, in denen Keye-VL einen deutlichen Vorteil zeigt.