16 天前

GRiT:一种用于目标理解的生成式区域到文本Transformer

Jialian Wu, Jianfeng Wang, Zhengyuan Yang, Zhe Gan, Zicheng Liu, Junsong Yuan, Lijuan Wang
GRiT:一种用于目标理解的生成式区域到文本Transformer
摘要

本文提出了一种用于物体理解的生成式区域到文本变换模型——GRiT(Generative RegIon-to-Text transformer)。GRiT的核心思想是将物体理解建模为“区域-文本”对的形式,其中区域用于定位物体,文本用于描述物体。例如,在目标检测任务中,文本表示类别名称;而在密集描述(dense captioning)任务中,文本则为描述性语句。具体而言,GRiT由一个视觉编码器用于提取图像特征,一个前景物体提取器用于定位物体,以及一个文本解码器用于生成开放集的物体描述。得益于统一的模型架构,GRiT不仅能够理解简单的名词性描述,还可生成包含物体属性或动作等丰富语义的描述性句子。实验结果表明,GRiT在目标检测任务上于COCO 2017 test-dev数据集上取得了60.4的AP(Average Precision)性能,在密集描述任务上于Visual Genome数据集上达到15.5的mAP(mean Average Precision)。相关代码已开源,地址为:https://github.com/JialianW/GRiT。