Command Palette
Search for a command to run...
Elizaveta Goncharova Anton Razzhigaev Matvey Mikhalchuk Maxim Kurkin Irina Abdullaeva Matvey Skripkin Ivan Oseledets Denis Dimitrov Andrey Kuznetsov

Résumé
L'année dernière, les architectures multimodales ont marqué une révolution dans les approches et solutions fondées sur l'intelligence artificielle, en élargissant les capacités des grands modèles linguistiques (LLM). Nous proposons un modèle OmniFusion basé sur un LLM préentraîné et des adaptateurs dédiés à la modalité visuelle. Nous avons évalué et comparé plusieurs principes architecturaux visant à améliorer l'association entre données textuelles et visuelles : adaptateurs MLP et transformer, divers encodeurs basés sur CLIP-ViT (SigLIP, InternVIT, etc.), leur méthode de fusion, la méthode d'encodage d'image (encodage global ou par tuiles), ainsi que deux LLM de 7 milliards de paramètres (l'un propriétaire, l'autre open-source, Mistral). Des expériences menées sur 8 benchmarks multimodaux montrent que la meilleure configuration d'OmniFusion atteint les meilleurs scores dans diverses tâches de question-réponse visuelle (VQA), surpassant les solutions open-source de type LLaVA telles que VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2 et MMMU. Nous proposons également divers scénarios où OmniFusion fournit des réponses particulièrement détaillées dans des domaines variés : entretien ménager, tourisme, culture, médecine, reconnaissance d'équations manuscrites ou numérisées, etc. Le modèle OmniFusion basé sur Mistral est une solution open-source, dont les poids, ainsi que les scripts d'entraînement et d'inférence, sont disponibles sur GitHub : https://github.com/AIRI-Institute/OmniFusion.
Dépôts de code
Benchmarks
| Benchmark | Méthodologie | Métriques |
|---|---|---|
| visual-question-answering-on-mm-vet | OmniFusion (grid split + ruDocVQA) | GPT-4 score: 39.40 |
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.