16 天前

InfiMM-HD:高分辨率多模态理解的跨越式进步

Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
InfiMM-HD:高分辨率多模态理解的跨越式进步
摘要

多模态大语言模型(Multimodal Large Language Models, MLLMs)近年来取得了显著进展。然而,在高分辨率图像中准确识别与理解复杂细节方面,仍面临诸多挑战。尽管这一能力对于构建鲁棒的MLLMs至关重要,但相关研究仍相对不足。为应对这一难题,本文提出InfiMM-HD——一种专为处理不同分辨率图像而设计的新架构,具有较低的计算开销。该架构有效推动了MLLMs向更高分辨率能力的扩展。InfiMM-HD引入了交叉注意力模块与视觉窗口机制,显著降低了计算成本。通过将该架构与四阶段训练流程相结合,模型能够高效且经济地实现更优的视觉感知能力。实证研究表明,InfiMM-HD具备出色的鲁棒性与有效性,为相关领域研究开辟了新的方向。代码与模型已发布于:https://huggingface.co/Infi-MM/infimm-hd

InfiMM-HD:高分辨率多模态理解的跨越式进步 | 最新论文 | HyperAI超神经