Kimi-VL Technischer Bericht

Wir präsentieren Kimi-VL, ein effizientes, quelloffenes Mixture-of-Experts (MoE)-Vision-Sprache-Modell (VLM), das fortgeschrittene multimodale Schlussfolgerung, Verständnis langer Kontexte und starke Agentenfähigkeiten bietet – und dabei lediglich 2,8 Milliarden Parameter in seinem Sprachdecoder aktiviert (Kimi-VL-A3B). Kimi-VL zeigt herausragende Leistung in anspruchsvollen Domänen: Als allgemein einsetzbares VLM übertrifft Kimi-VL führende Modelle bei mehrschrittigen Agentenaufgaben (z. B. OSWorld). Zudem zeichnet es sich durch bemerkenswerte Fähigkeiten bei einer Vielzahl herausfordernder Aufgaben im Bereich Vision-Sprache aus, darunter Verständnis von Bildern und Videos auf Hochschulniveau, OCR, mathematische Schlussfolgerung und Verarbeitung mehrerer Bilder. In vergleichenden Evaluierungen konkurriert Kimi-VL effektiv mit führenden effizienten VLMs wie GPT-4o-mini, Qwen2.5-VL-7B und Gemma-3-12B-IT und übertrifft GPT-4o in mehreren Schlüsselbereichen. Kimi-VL erreicht zudem Fortschritte bei der Verarbeitung langer Kontexte und der klaren Wahrnehmung: Mit einem erweiterten Kontextfenster von 128 K kann das Modell vielfältige lange Eingaben verarbeiten und erzielt beeindruckende Ergebnisse von 64,5 auf LongVideoBench und 35,1 auf MMLongBench-Doc. Der native-Auflösungs-Vision-Encoder MoonViT ermöglicht zudem die Verarbeitung und Interpretation von ultrahochauflösenden visuellen Eingaben, wobei Werte von 83,2 auf InfoVQA und 34,5 auf ScreenSpot-Pro erreicht werden, während gleichzeitig die Rechenkosten für alltägliche Aufgaben niedrig bleiben. Aufbauend auf Kimi-VL stellen wir eine erweiterte Variante mit langem Denkprozess vor: Kimi-VL-Thinking. Dieses Modell wurde durch langkettige, auf Supervised Fine-Tuning (SFT) und Verstärkendes Lernen (RL) basierende Training entwickelt und zeigt starke Fähigkeiten im langfristigen Schlussfolgern. Es erreicht Ergebnisse von 61,7 auf MMMU, 36,8 auf MathVision und 71,3 auf MathVista, während es die kompakte Größe von 2,8 Milliarden aktivierten LLM-Parametern beibehält und damit einen neuen Standard für effiziente multimodale Denkmodelle setzt. Quellcode und Modelle sind öffentlich unter https://github.com/MoonshotAI/Kimi-VL verfügbar.