17日前
視覚認識におけるボトルネック変換器
Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, Ashish Vaswani

要約
本稿では、画像分類、物体検出、インスタンスセグメンテーションなど、複数のコンピュータビジョンタスクに適用可能な、概念的にシンプルながら強力なバックボーンアーキテクチャ「BoTNet」を提案する。ResNetの最終3つのボトルネックブロックにおける空間畳み込みをグローバル自己注意(self-attention)に置き換えるのみで、他の変更を加えず、インスタンスセグメンテーションおよび物体検出のベースライン性能を顕著に上回りつつ、パラメータ数を削減し、レイテンシへの影響は最小限に抑えることができる。BoTNetの設計を通じて、自己注意を導入したResNetボトルネックブロックがTransformerブロックと見なせる可能性にも着目した。特に、いかなる追加機能も用いずに、Mask R-CNNフレームワークを用いてCOCOインスタンスセグメンテーションベンチマークにおいて、マスクAP 44.4%、ボックスAP 49.7%を達成し、COCO検証セット上で評価された以前の最高性能を記録した単一モデル・単一スケールのResNeStを上回った。さらに、BoTNetの設計を画像分類タスクに簡易に適応したモデルも提示し、TPU-v3ハードウェア上でEfficientNetモデルと比較して最大1.64倍高速な計算時間で、ImageNetベンチマークにおいて84.7%のトップ-1精度を達成した。本研究で提示するシンプルかつ効果的なアプローチが、視覚領域における自己注意モデルに関する今後の研究における強力なベースラインとなることを期待する。