HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

OmniFusion Technischer Bericht

Elizaveta Goncharova Anton Razzhigaev Matvey Mikhalchuk Maxim Kurkin Irina Abdullaeva Matvey Skripkin Ivan Oseledets Denis Dimitrov Andrey Kuznetsov

OmniFusion Technischer Bericht

Abstract

Letztes Jahr sorgten multimodale Architekturen für eine Revolution in künstlich-intelligenten Ansätzen und Lösungen und erweiterten die Fähigkeiten großer Sprachmodelle (Large Language Models, LLM). Wir stellen ein OmniFusion-Modell vor, das auf einem vortrainierten LLM und Adaptern für die visuelle Modalität basiert. Wir haben mehrere Architekturprinzipien zur Verbesserung der Kopplung zwischen Text- und Visualdaten evaluiert und verglichen: MLP- und Transformer-Adapter, verschiedene CLIP-ViT-basierte Encoder (SigLIP, InternVIT usw.), deren Fusionsansätze, Methoden der Bildcodierung (Gesamtbild- oder Tile-Codierung) sowie zwei LLMs mit 7 Milliarden Parametern (ein proprietäres Modell und das Open-Source-Modell Mistral). Experimente an acht visuallinguistischen Benchmark-Datenbanken zeigen, dass die bestgeeignete OmniFusion-Konfiguration in verschiedenen VQA-Aufgaben die höchsten Ergebnisse erzielt im Vergleich zu Open-Source-Lösungen im Stil von LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Zudem präsentieren wir eine Vielzahl von Anwendungsszenarien, in denen OmniFusion hochdetaillierte Antworten in unterschiedlichen Domänen liefert: Haushaltshilfe, Tourismus, Kultur, Medizin, Erkennung handschriftlicher und gescannter Gleichungen usw. Das auf Mistral basierende OmniFusion-Modell ist eine Open-Source-Lösung mit verfügbaren Gewichten, Trainings- und Inferenzskripten unter https://github.com/AIRI-Institute/OmniFusion.

Code-Repositories

Benchmarks

BenchmarkMethodikMetriken
visual-question-answering-on-mm-vetOmniFusion (grid split + ruDocVQA)
GPT-4 score: 39.40

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OmniFusion Technischer Bericht | Forschungsarbeiten | HyperAI