Elizaveta Goncharova Anton Razzhigaev Matvey Mikhalchuk Maxim Kurkin Irina Abdullaeva Matvey Skripkin Ivan Oseledets Denis Dimitrov Andrey Kuznetsov

Abstract
Letztes Jahr sorgten multimodale Architekturen für eine Revolution in künstlich-intelligenten Ansätzen und Lösungen und erweiterten die Fähigkeiten großer Sprachmodelle (Large Language Models, LLM). Wir stellen ein OmniFusion-Modell vor, das auf einem vortrainierten LLM und Adaptern für die visuelle Modalität basiert. Wir haben mehrere Architekturprinzipien zur Verbesserung der Kopplung zwischen Text- und Visualdaten evaluiert und verglichen: MLP- und Transformer-Adapter, verschiedene CLIP-ViT-basierte Encoder (SigLIP, InternVIT usw.), deren Fusionsansätze, Methoden der Bildcodierung (Gesamtbild- oder Tile-Codierung) sowie zwei LLMs mit 7 Milliarden Parametern (ein proprietäres Modell und das Open-Source-Modell Mistral). Experimente an acht visuallinguistischen Benchmark-Datenbanken zeigen, dass die bestgeeignete OmniFusion-Konfiguration in verschiedenen VQA-Aufgaben die höchsten Ergebnisse erzielt im Vergleich zu Open-Source-Lösungen im Stil von LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Zudem präsentieren wir eine Vielzahl von Anwendungsszenarien, in denen OmniFusion hochdetaillierte Antworten in unterschiedlichen Domänen liefert: Haushaltshilfe, Tourismus, Kultur, Medizin, Erkennung handschriftlicher und gescannter Gleichungen usw. Das auf Mistral basierende OmniFusion-Modell ist eine Open-Source-Lösung mit verfügbaren Gewichten, Trainings- und Inferenzskripten unter https://github.com/AIRI-Institute/OmniFusion.
Code-Repositories
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| visual-question-answering-on-mm-vet | OmniFusion (grid split + ruDocVQA) | GPT-4 score: 39.40 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.