HyperAI

Letztes Jahr sorgten multimodale Architekturen für eine Revolution in künstlich-intelligenten Ansätzen und Lösungen und erweiterten die Fähigkeiten großer Sprachmodelle (Large Language Models, LLM). Wir stellen ein OmniFusion-Modell vor, das auf einem vortrainierten LLM und Adaptern für die visuelle Modalität basiert. Wir haben mehrere Architekturprinzipien zur Verbesserung der Kopplung zwischen Text- und Visualdaten evaluiert und verglichen: MLP- und Transformer-Adapter, verschiedene CLIP-ViT-basierte Encoder (SigLIP, InternVIT usw.), deren Fusionsansätze, Methoden der Bildcodierung (Gesamtbild- oder Tile-Codierung) sowie zwei LLMs mit 7 Milliarden Parametern (ein proprietäres Modell und das Open-Source-Modell Mistral). Experimente an acht visuallinguistischen Benchmark-Datenbanken zeigen, dass die bestgeeignete OmniFusion-Konfiguration in verschiedenen VQA-Aufgaben die höchsten Ergebnisse erzielt im Vergleich zu Open-Source-Lösungen im Stil von LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Zudem präsentieren wir eine Vielzahl von Anwendungsszenarien, in denen OmniFusion hochdetaillierte Antworten in unterschiedlichen Domänen liefert: Haushaltshilfe, Tourismus, Kultur, Medizin, Erkennung handschriftlicher und gescannter Gleichungen usw. Das auf Mistral basierende OmniFusion-Modell ist eine Open-Source-Lösung mit verfügbaren Gewichten, Trainings- und Inferenzskripten unter https://github.com/AIRI-Institute/OmniFusion.

OmniFusion Technischer Bericht

Elizaveta Goncharova Anton Razzhigaev Matvey Mikhalchuk Maxim Kurkin Irina Abdullaeva Matvey Skripkin Ivan Oseledets Denis Dimitrov Andrey Kuznetsov

Abstract

Code-Repositories

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette