HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Rapport technique OmniFusion

Elizaveta Goncharova Anton Razzhigaev Matvey Mikhalchuk Maxim Kurkin Irina Abdullaeva Matvey Skripkin Ivan Oseledets Denis Dimitrov Andrey Kuznetsov

Rapport technique OmniFusion

Résumé

L'année dernière, les architectures multimodales ont marqué une révolution dans les approches et solutions fondées sur l'intelligence artificielle, en élargissant les capacités des grands modèles linguistiques (LLM). Nous proposons un modèle OmniFusion basé sur un LLM préentraîné et des adaptateurs dédiés à la modalité visuelle. Nous avons évalué et comparé plusieurs principes architecturaux visant à améliorer l'association entre données textuelles et visuelles : adaptateurs MLP et transformer, divers encodeurs basés sur CLIP-ViT (SigLIP, InternVIT, etc.), leur méthode de fusion, la méthode d'encodage d'image (encodage global ou par tuiles), ainsi que deux LLM de 7 milliards de paramètres (l'un propriétaire, l'autre open-source, Mistral). Des expériences menées sur 8 benchmarks multimodaux montrent que la meilleure configuration d'OmniFusion atteint les meilleurs scores dans diverses tâches de question-réponse visuelle (VQA), surpassant les solutions open-source de type LLaVA telles que VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2 et MMMU. Nous proposons également divers scénarios où OmniFusion fournit des réponses particulièrement détaillées dans des domaines variés : entretien ménager, tourisme, culture, médecine, reconnaissance d'équations manuscrites ou numérisées, etc. Le modèle OmniFusion basé sur Mistral est une solution open-source, dont les poids, ainsi que les scripts d'entraînement et d'inférence, sont disponibles sur GitHub : https://github.com/AIRI-Institute/OmniFusion.

Benchmarks

BenchmarkMéthodologieMétriques
visual-question-answering-on-mm-vetOmniFusion (grid split + ruDocVQA)
GPT-4 score: 39.40

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Rapport technique OmniFusion | Articles de recherche | HyperAI