8 天前

GiT:通过通用语言接口实现通用视觉Transformer

Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang
GiT:通过通用语言接口实现通用视觉Transformer
摘要

本文提出了一种简单而高效的框架——GiT(Generalist Image Transformer),仅基于标准的视觉Transformer(ViT)即可同时适用于多种视觉任务。受大规模语言模型(LLMs)中广泛使用的多层Transformer架构(如GPT)普遍适用性的启发,我们致力于将其扩展至视觉领域,构建一个强大的视觉基础模型(Vision Foundation Model, VFM)。然而,与语言建模不同,视觉任务通常需要特定模块支持,例如目标检测中的边界框头(bounding box head)或分割任务中的像素解码器(pixel decoder),这严重限制了强大多层Transformer在视觉任务中的应用。为解决这一问题,我们设计了一种通用的语言接口(universal language interface),使自回归解码能够成功实现对多种视觉任务的统一建模,涵盖从图像级理解(如图像描述生成)、稀疏感知(如目标检测),到密集预测(如语义分割)等不同层次的任务。基于上述设计,整个模型仅由一个ViT构成,无需引入任何专用模块,实现了显著的架构简化。GiT是一种多任务视觉模型,在五个代表性基准上进行联合训练,无需针对特定任务进行微调。令人瞩目的是,GiT在通用性表现上树立了新的基准,并实现了任务间的相互促进,相比孤立训练显著提升了性能,这一现象与大型语言模型中的“任务协同增强”效应类似。进一步通过27个数据集进行丰富训练后,GiT在多种任务上均展现出强大的零样本(zero-shot)性能。由于其简洁的设计,该范式有望缩小视觉与语言模型之间的架构差距。代码与模型将公开发布于:\url{https://github.com/Haiyang-W/GiT}。

GiT:通过通用语言接口实现通用视觉Transformer | 最新论文 | HyperAI超神经