17日前

VOLO:視覚認識のためのビジョンアウトライナー

Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan
VOLO:視覚認識のためのビジョンアウトライナー
要約

視覚認識は長年にわたり畳み込みニューラルネットワーク(CNN)によって支配されてきた。近年では、自己注意機構(self-attention)を基盤とするビジョントランスフォーマー(ViT)がImageNet分類において大きな可能性を示しているが、追加のデータを用いない場合、最新のSOTA(最先端)CNNに比べて性能は依然として劣っている。本研究では、この性能差を解消し、注意機構に基づくモデルがCNNを上回ることを実証する。我々は、ViTのImageNet分類における性能を制限する主要因として、細粒度の特徴をトークン表現に効果的にエンコードできていない点を突き止めた。これを解決するために、新たな「アウトライン注意(outlook attention)」を導入し、シンプルかつ汎用性の高いアーキテクチャである「Vision Outlooker(VOLO)」を提案する。自己注意機構が粗いレベルでのグローバル依存関係のモデリングに注目するのに対し、アウトライン注意は細粒度の特徴および文脈を効率的にトークンに埋め込むことができる。この点は認識性能にとって極めて有益であるが、従来の自己注意機構ではほとんど無視されてきた。実験の結果、VOLOはImageNet-1K分類においてトップ1精度87.1%を達成し、この競争力の高いベンチマークで87%を上回る最初のモデルとなった。なお、追加の学習データを一切使用せずに達成された。さらに、事前学習済みのVOLOは、セマンティックセグメンテーションをはじめとする下流タスクへの転移性能も優れている。Cityscapes検証セットでは84.3%のmIoUスコア、ADE20K検証セットでは54.3%のmIoUスコアを達成した。コードは以下のURLから公開されている:\url{https://github.com/sail-sg/volo}。

VOLO:視覚認識のためのビジョンアウトライナー | 最新論文 | HyperAI超神経