19日前

あなたが一度のシーケンスだけを見るべきである:オブジェクト検出を通じたビジョンにおけるTransformerの再考

Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, Wenyu Liu
あなたが一度のシーケンスだけを見るべきである:オブジェクト検出を通じたビジョンにおけるTransformerの再考
要約

Transformerは、2次元空間構造に関する最小限の知識を前提として、純粋なシーケンス・トゥ・シーケンスの視点から2次元物体および領域レベルの認識を実現できるだろうか?この問いに答えるために、我々は、基本的なビジョン・Transformer(Vision Transformer)をベースとし、可能な限り少ない修正、領域事前知識、およびタスク固有の誘導的バイアス(inductive biases)を用いた物体検出モデル群である「You Only Look at One Sequence(YOLOS)」を提案する。本研究では、中規模のImageNet-1kデータセットで事前学習されたYOLOSは、挑戦的なCOCO物体検出ベンチマークにおいてすでに非常に競争力のある性能を示すことがわかった。例えば、BERT-Baseアーキテクチャから直接採用されたYOLOS-Baseは、COCOの検証セットで42.0のボックスAP(box AP)を達成した。さらに、YOLOSを通じて、Transformerモデルが視覚タスクにおいて現在の事前学習スキームおよびモデルスケーリング戦略がもたらす影響と限界についても議論する。コードおよび事前学習済みモデルは、https://github.com/hustvl/YOLOS にて公開されている。