HyperAIHyperAI

Command Palette

Search for a command to run...

OmniFusion Technischer Bericht

Elizaveta Goncharova Anton Razzhigaev Matvey Mikhalchuk Maxim Kurkin Irina Abdullaeva Matvey Skripkin Ivan Oseledets Denis Dimitrov Andrey Kuznetsov

Zusammenfassung

Letztes Jahr sorgten multimodale Architekturen für eine Revolution in künstlich-intelligenten Ansätzen und Lösungen und erweiterten die Fähigkeiten großer Sprachmodelle (Large Language Models, LLM). Wir stellen ein OmniFusion-Modell vor, das auf einem vortrainierten LLM und Adaptern für die visuelle Modalität basiert. Wir haben mehrere Architekturprinzipien zur Verbesserung der Kopplung zwischen Text- und Visualdaten evaluiert und verglichen: MLP- und Transformer-Adapter, verschiedene CLIP-ViT-basierte Encoder (SigLIP, InternVIT usw.), deren Fusionsansätze, Methoden der Bildcodierung (Gesamtbild- oder Tile-Codierung) sowie zwei LLMs mit 7 Milliarden Parametern (ein proprietäres Modell und das Open-Source-Modell Mistral). Experimente an acht visuallinguistischen Benchmark-Datenbanken zeigen, dass die bestgeeignete OmniFusion-Konfiguration in verschiedenen VQA-Aufgaben die höchsten Ergebnisse erzielt im Vergleich zu Open-Source-Lösungen im Stil von LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Zudem präsentieren wir eine Vielzahl von Anwendungsszenarien, in denen OmniFusion hochdetaillierte Antworten in unterschiedlichen Domänen liefert: Haushaltshilfe, Tourismus, Kultur, Medizin, Erkennung handschriftlicher und gescannter Gleichungen usw. Das auf Mistral basierende OmniFusion-Modell ist eine Open-Source-Lösung mit verfügbaren Gewichten, Trainings- und Inferenzskripten unter https://github.com/AIRI-Institute/OmniFusion.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp