Command Palette

Search for a command to run...

4 个月前

OmniFusion 技术报告

Elizaveta Goncharova Anton Razzhigaev Matvey Mikhalchuk Maxim Kurkin Irina Abdullaeva Matvey Skripkin Ivan Oseledets Denis Dimitrov Andrey Kuznetsov

OmniFusion 技术报告

摘要

去年,多模态架构在基于人工智能的方法与解决方案中掀起了一场革命,显著拓展了大语言模型(LLM)的能力边界。本文提出一种基于预训练大语言模型与视觉模态适配器的通用融合模型——OmniFusion。我们系统评估并比较了多种架构设计原则,以实现文本与视觉数据更高效的耦合:包括MLP适配器与Transformer适配器、多种基于CLIP ViT结构的编码器(如SigLIP、InternVIT等)、不同的融合策略、图像编码方式(整体图像编码或图像块编码),以及两种70亿参数规模的LLM(一种专有模型与开源的Mistral模型)。在8个视觉-语言基准测试上的实验结果表明,最优配置的OmniFusion模型在多项视觉问答(VQA)任务中表现卓越,显著优于现有的开源LLaVA类解决方案,涵盖VizWiz、Pope、MM-Vet、ScienceQA、MMBench、TextVQA、VQAv2和MMMU等多个主流评测集。此外,我们还展示了OmniFusion在多个实际应用场景中生成高度详尽回答的能力,涵盖家庭事务、旅游导览、文化理解、医学诊断、手写与扫描方程识别等不同领域。基于Mistral的OmniFusion模型为开源方案,其模型权重、训练脚本与推理代码均已公开,可访问GitHub仓库获取:https://github.com/AIRI-Institute/OmniFusion

基准测试

基准方法指标
visual-question-answering-on-mm-vetOmniFusion (grid split + ruDocVQA)
GPT-4 score: 39.40

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OmniFusion 技术报告 | 论文 | HyperAI超神经