1ヶ月前

Res2Net: 新たな多スケールバックボーンアーキテクチャ

Shang-Hua Gao; Ming-Ming Cheng; Kai Zhao; Xin-Yu Zhang; Ming-Hsuan Yang; Philip Torr
Res2Net: 新たな多スケールバックボーンアーキテクチャ
要約

複数のスケールで特徴を表現することは、多くのビジョンタスクにおいて極めて重要です。最近のバックボーン畳み込みニューラルネットワーク(CNNs)の進歩は、継続的により強力な多スケール表現能力を示しており、幅広いアプリケーションでの一貫した性能向上につながっています。しかし、既存の大多数の手法は層ごとに多スケール特徴を表現しています。本論文では、単一の残差ブロック内で階層的な残差のような接続を構築することにより、CNNs用の新しい構成要素であるRes2Netを提案します。Res2Netは、微細レベルで多スケール特徴を表現し、各ネットワーク層の受容野範囲を拡大します。提案されたRes2Netブロックは、最新のバックボーンCNNモデル(例:ResNet, ResNeXt, DLA)に組み込むことができます。これらのモデルにおけるRes2Netブロックの評価を行い、CIFAR-100やImageNetなどの一般的に使用されるデータセット上でベースラインモデルに対する一貫した性能向上を示しました。さらに、代表的なコンピュータビジョンタスク(物体検出、クラス活性化マッピング、注目物体検出)に関する詳細な解析研究と実験結果により、Res2Netが最新のベースライン手法よりも優れていることを確認しています。ソースコードと学習済みモデルは https://mmcheng.net/res2net/ から入手可能です。