Ovis-U1 Technischer Bericht

In diesem Bericht stellen wir Ovis-U1 vor, ein vereintes Modell mit 3 Milliarden Parametern, das multimodales Verständnis, Text-zu-Bild-Generierung und Bildbearbeitungsfähigkeiten integriert. Aufbauend auf der Grundlage der Ovis-Reihe verbindet Ovis-U1 einen diffusionsbasierten visuellen Decoder mit einem bidirektionalen Token-Refiner, was es ermöglicht, Bildgenerierungsaufgaben durchzuführen, die denen führender Modelle wie GPT-4o entsprechen. Im Gegensatz zu früheren Modellen, die für Generierungsaufgaben ein gefriergetrocknetes MLLM (Multimodal Large Language Model) verwenden, nutzt Ovis-U1 einen neuen vereinten Trainingsansatz, der von einem Sprachmodell ausgeht. Verglichen mit dem Training ausschließlich auf Verständigsaufgaben oder Generierungsaufgaben erzielt vereintes Training bessere Leistungen und zeigt die Verbesserung auf, die durch die Integration dieser beiden Aufgaben erreicht wird. Ovis-U1 erreicht einen Score von 69,6 im OpenCompass Multi-modal Academic Benchmark und übertrifft damit aktuelle state-of-the-art-Modelle wie Ristretto-3B und SAIL-VL-1.5-2B. In der Text-zu-Bild-Generierung zeichnet es sich durch Scores von 83,72 und 0,89 in den Benchmarks DPG-Bench und GenEval aus. Für die Bildbearbeitung erzielt es Werte von 4,00 und 6,42 im ImgEdit-Bench und GEdit-Bench-EN. Als erste Version der Ovis-Reihe von vereinten Modellen setzt Ovis-U1 neue Maßstäbe im Bereich des multimodalen Verständnisses, der Generierung und der Bearbeitung.