17日前

階層的マルチスケールアテンションによるセマンティックセグメンテーション

Andrew Tao, Karan Sapra, Bryan Catanzaro
階層的マルチスケールアテンションによるセマンティックセグメンテーション
要約

マルチスケール推論は、セマンティックセグメンテーションの性能向上に広く用いられている手法である。複数のスケールの画像をネットワークに通した後、その出力を平均化またはマックスプーリングによって統合する。本研究では、マルチスケール予測を統合するためのアテンションベースのアプローチを提案する。我々は、特定のスケールでの予測が特定の失敗モードをより効果的に解消できることを示し、ネットワークがそのような状況においてそれらのスケールを優先的に選択することで、より良い予測を生成することを学習していることを明らかにする。本研究で提案するアテンション機構は階層的構造を採用しており、最近の他のアプローチと比較して、学習にかかるメモリ消費量を約4倍削減できる。これにより、高速な学習が可能となるだけでなく、より大きなクロップサイズでの学習が実現でき、結果としてモデルの精度が向上する。本手法の有効性を、CityscapesおよびMapillary Vistasの2つのデータセット上で検証した。特にCityscapesは弱教師ラベル付きの画像が多数含まれるため、自動ラベル付け(auto-labelling)を活用して一般化性能を向上させた。本手法により、Mapillary Vistas(バリデーション時61.1 IOU)およびCityscapes(テスト時85.1 IOU)の両方で、新たな最先端(state-of-the-art)の性能を達成した。

階層的マルチスケールアテンションによるセマンティックセグメンテーション | 最新論文 | HyperAI超神経