8ヶ月前

概要

自然言語処理分野におけるTransformerの成果を踏まえ、Transformerに搭載されたエンコーダ・デコーダ構造およびアテンション機構は、コンピュータビジョン分野へと応用されつつある。近年、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、コンピュータビジョンの多様なタスクにおいて、最先端の畳み込みニューラルネットワーク（CNN）がTransformerの一部の概念を取り入れるようになってきた。これは、Transformerが画像認識分野において極めて有望な技術であることを示している。Vision Transformer（ViT）が提案されて以降、より多くの研究が自己アテンション機構を用いて畳み込み層を完全に置き換えるアプローチを採用するようになった。本研究は、Vision Transformerをベースとし、ピラミッド構造を組み合わせ、Split-transform-merge戦略を用いてグループエンコーダを設計した。このネットワークアーキテクチャを「Aggregated Pyramid Vision Transformer（APVT）」と命名した。CIFAR-10データセットを用いた画像分類およびCOCO 2017データセットを用いたオブジェクト検出の実験を通じて、Transformerをバックボーンとして用いる他のネットワークアーキテクチャと比較して、APVTは計算コストを低減しつつ優れた性能を達成した。本研究で提案する改善戦略が、今後のコンピュータビジョンにおけるTransformer研究の参考となることを期待している。

ソースPDF