HyperAIHyperAI

Command Palette

Search for a command to run...

InfiMM-HD:高分辨率多模态理解的跨越式进步

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

摘要

多模态大语言模型(Multimodal Large Language Models, MLLMs)近年来取得了显著进展。然而,在高分辨率图像中准确识别与理解复杂细节方面,仍面临诸多挑战。尽管这一能力对于构建鲁棒的MLLMs至关重要,但相关研究仍相对不足。为应对这一难题,本文提出InfiMM-HD——一种专为处理不同分辨率图像而设计的新架构,具有较低的计算开销。该架构有效推动了MLLMs向更高分辨率能力的扩展。InfiMM-HD引入了交叉注意力模块与视觉窗口机制,显著降低了计算成本。通过将该架构与四阶段训练流程相结合,模型能够高效且经济地实现更优的视觉感知能力。实证研究表明,InfiMM-HD具备出色的鲁棒性与有效性,为相关领域研究开辟了新的方向。代码与模型已发布于:https://huggingface.co/Infi-MM/infimm-hd


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供