HyperAI超神经

摘要

多模态大语言模型（Multimodal Large Language Models, MLLMs）近年来取得了显著进展。然而，在高分辨率图像中准确识别与理解复杂细节方面，仍面临诸多挑战。尽管这一能力对于构建鲁棒的MLLMs至关重要，但相关研究仍相对不足。为应对这一难题，本文提出InfiMM-HD——一种专为处理不同分辨率图像而设计的新架构，具有较低的计算开销。该架构有效推动了MLLMs向更高分辨率能力的扩展。InfiMM-HD引入了交叉注意力模块与视觉窗口机制，显著降低了计算成本。通过将该架构与四阶段训练流程相结合，模型能够高效且经济地实现更优的视觉感知能力。实证研究表明，InfiMM-HD具备出色的鲁棒性与有效性，为相关领域研究开辟了新的方向。代码与模型已发布于：https://huggingface.co/Infi-MM/infimm-hd

摘要

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

摘要

用 AI 构建 AI

HyperAI Newsletters

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

摘要

用 AI 构建 AI

HyperAI Newsletters

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

InfiMM-HD：高分辨率多模态理解的跨越式进步

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

InfiMM-HD：高分辨率多模态理解的跨越式进步

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

InfiMM-HD：高分辨率多模态理解的跨越式进步

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

摘要

用 AI 构建 AI

HyperAI Newsletters