
要約
最先端のセマンティックセグメンテーションモデルは、元々画像分類のために設計された畳み込みニューラルネットワークの改良版に基づいています。しかし、密集予測と画像分類は構造的に異なるものです。本研究では、密集予測に特化した新しい畳み込みニューラルネットワークモジュールを開発しました。提案されたモジュールは、解像度を失うことなく多スケールのコンテキスト情報を系統的に集約するため、ディラテッド畳み込み(dilated convolutions)を使用しています。アーキテクチャは、ディラテッド畳み込みが解像度やカバレッジを失うことなく受容野を指数関数的に拡大できるという事実に基づいています。我々は、提案したコンテキストモジュールが最先端のセマンティックセグメンテーションシステムの精度を向上させることを示しました。さらに、画像分類ネットワークを密集予測に適応させる方法を検討し、適応後のネットワークを簡素化することで精度が向上することも示しました。