16日前

GRiT:オブジェクト理解のための生成型Region-to-text Transformer

Jialian Wu, Jianfeng Wang, Zhengyuan Yang, Zhe Gan, Zicheng Liu, Junsong Yuan, Lijuan Wang
GRiT:オブジェクト理解のための生成型Region-to-text Transformer
要約

本論文では、物体理解を目的とした生成型領域からテキストへの変換モデル「GRiT(Generative RegIon-to-Text transformer)」を提案する。GRiTの核心的な考え方として、物体理解を「領域(region)とテキスト」のペアとして定式化する。ここで、領域は物体の位置を示し、テキストは物体の内容を記述する。たとえば、物体検出におけるテキストはクラス名を指すが、密集型キャプション(dense captioning)では物体の特徴を記述する文が対応する。具体的には、GRiTは画像特徴を抽出する視覚エンコーダ、物体を局所化する前景物体抽出モジュール、および開集合(open-set)の物体記述を生成するテキストデコーダから構成される。同じモデルアーキテクチャを用いることで、GRiTは単純な名詞だけでなく、物体の属性や行動を含む豊かな記述文をも用いて物体を理解することが可能である。実験において、GRiTを物体検出および密集型キャプションのタスクに適用した結果、COCO 2017のtest-devセットにおいて60.4 APを達成し、Visual Genomeデータセットでは15.5 mAPを記録した。コードはGitHubにて公開されている:https://github.com/JialianW/GRiT

GRiT:オブジェクト理解のための生成型Region-to-text Transformer | 最新論文 | HyperAI超神経