HyperAI
vor 4 Tagen

Kwai Keye-VL Technischer Bericht

Kwai Keye Team, Biao Yang, Bin Wen, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Hao Peng, Haojie Ding, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Jin Ouyang, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yang Zhou, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zhenhua Wu, Zhenyu Li, Zhixin Ling, Ziming Li, Dehua Ma, Di Xu, Haixuan Gao, Hang Li, Jiawei Guo, Jing Wang, Lejian Ren, Muhao Wei, Qianqian Wang, Qigen Hu, Shiyao Wang, Tao Yu, Xinchen Luo, Yan Li, Yiming Liang, Yuhang Hu, Zeyi Lu, Zhuoran Yang, Zixing Zhang
Kwai Keye-VL Technischer Bericht
Abstract

Während Multimodale Große Sprachmodelle (MLLMs) bemerkenswerte Fähigkeiten bei statischen Bildern zeigen, fallen sie oft bei der Verarbeitung dynamischer, informationsreicher Kurzform-Videos hinterher, die ein dominantes Medium im heutigen digitalen Landschaft sind. Um diese Lücke zu schließen, stellen wir Kwai Keye-VL vor, ein 8-Milliarden-Parameter-Multimodell, das für leistungsstarke Kurzvideo-Verarbeitung entwickelt wurde und dabei robuste allgemeine visuelle-sprachliche Fähigkeiten beibehält. Die Entwicklung von Keye-VL basiert auf zwei zentralen Säulen: einem massiven, hochwertigen Datensatz mit über 600 Milliarden Token und einem starken Fokus auf Videos sowie einer innovativen Trainingsmethode. Diese Methode umfasst einen vierstufigen Vortrainingsprozess zur sicheren Ausrichtung von Vision und Sprache, gefolgt von einem sorgfältigen zweiphasigen Nachtrainingsprozess. Die erste Nachtrainingphase verbessert grundlegende Fähigkeiten wie die Befolgung von Anweisungen, während die zweite Phase sich auf die Förderung fortgeschrittener Schlussfolgerungen konzentriert. Ein wesentlicher Innovationsaspekt in dieser zweiten Phase ist unsere fünfmodale „Cold-Start“-Datenmischung, die „Denken“, „Nicht-Denken“, „Auto-Denken“, „Denken mit Bild“ und hochwertige Videodaten umfasst. Diese Mischung lehrt das Modell, wann und wie es Schlussfolgerungen ziehen soll. Nachfolgende Schritte des verstärkenden Lernens (RL) und der Ausrichtung verbessern diese Schlussfolgerungsfähigkeiten weiter und korrigieren abnormes Modellverhalten, wie zum Beispiel wiederholte Ausgaben. Um unseren Ansatz zu validieren, führen wir umfangreiche Evaluierungen durch, die zeigen, dass Keye-VL den aktuellen Stand der Technik auf öffentlichen Video-Benchmarks erreicht und bei allgemeinen bildbasierten Aufgaben hoch wettbewerbsfähig bleibt (Abbildung 1). Darüber hinaus entwickeln und veröffentlichen wir das KC-MMBench, eine neue Benchmark-Suite für realweltliche Kurzvideo-Szenarien, in denen Keye-VL einen deutlichen Vorteil zeigt.