
摘要
本文揭示,尽管大语言模型(LLMs)仅基于文本数据进行训练,但在缺乏语言信息的情况下,其在纯视觉任务中仍表现出惊人的编码能力。更令人瞩目的是,这一效果可通过一种简单却此前被忽视的策略实现——即直接利用预训练LLM中的冻结Transformer模块作为视觉编码器层,以处理视觉标记(visual tokens)。本研究突破了传统利用LLM进行计算机视觉任务的范式,显著区别于以往依赖多模态视觉-语言架构及相应语言提示、输入或输出的常规方法。我们证明,该方法在多种任务中均能持续提升性能,涵盖纯2D与3D视觉识别任务(如图像分类与点云分类)、时序建模任务(如动作识别)、非语义任务(如运动预测),以及多模态任务(如2D/3D视觉问答与图文检索)。此类性能提升具有普遍性,适用于不同类型的LLM(如LLaMA与OPT)及其各类Transformer模块。此外,我们提出“信息过滤假说”以解释预训练LLM在视觉编码中的有效性:预训练的LLM Transformer模块能够识别出具有信息量的视觉标记,并进一步增强其表征作用。该假说得到了实证支持——在使用LLM Transformer模块进行训练后,特征激活显著聚焦于相关视觉区域。我们希望本研究能激发关于如何利用LLM的新视角,并深化对其中内在机制的理解。代码已公开,详见:https://github.com/ziqipang/LM4VisualEncoding。