16 天前
LLaVA-UHD:一种能够感知任意长宽比与高分辨率图像的LMM
Ruyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang

摘要
视觉编码是大型多模态模型(LMMs)理解视觉世界的基础。传统LMMs通常以固定尺寸和有限分辨率处理图像,而当前在此方向上的研究在适应性、效率甚至正确性方面仍存在局限。本文以GPT-4V和LLaVA-1.5作为代表性模型,揭示了其视觉编码策略中系统性存在的缺陷。为应对这些挑战,我们提出LLaVA-UHD——一种能够高效感知任意宽高比与高分辨率图像的大型多模态模型。LLaVA-UHD包含三个核心组件:(1)图像模块化策略,将原始分辨率图像划分为尺寸可变的小块,实现高效且可扩展的编码;(2)压缩模块,进一步压缩视觉编码器输出的图像标记(token);(3)空间结构(spatial schema),用于组织图像块标记以适配大语言模型(LLM)的处理需求。全面的实验表明,LLaVA-UHD在9个基准测试中表现优于此前训练数据量多出2至3个数量级的成熟LMMs。特别地,基于LLaVA-1.5(原支持336×336分辨率)构建的模型,仅需94%的推理计算量,即可支持6倍更大的图像分辨率(即672×1088),并在TextVQA任务上实现6.4个百分点的准确率提升。此外,该模型可在学术研究环境中高效训练,仅需8块A100 GPU运行23小时(相较LLaVA-1.5的26小时显著缩短)。相关数据与代码已公开发布于:https://github.com/thunlp/LLaVA-UHD。