SegNet: 画像セグメンテーションのための深層畳み込みエンコーダー-デコーダー構造

私たちは、セマンティックな画素単位のセグメンテーションに使用される新しいかつ実用的な深層完全畳み込みニューラルネットワークアーキテクチャであるSegNetを提案します。この中心的な学習可能なセグメンテーションエンジンは、エンコーダーネットワーク、それに続く対応するデコーダーネットワーク、および画素単位の分類層から構成されています。エンコーダーネットワークのアーキテクチャは、VGG16ネットワークの13つの畳み込み層とトポロジ的に同一です。デコーダーネットワークの役割は、低解像度のエンコーダー特徴マップを全入力解像度の特徴マップにマッピングし、画素単位で分類を行うことです。SegNetの新規性は、デコーダーが低解像度の入力特徴マップをアップサンプリングする方法にあります。具体的には、対応するエンコーダーでの最大プーリングステップで計算されたプーリングインデックスを使用して非線形アップサンプリングを行います。これにより、アップサンプリングを学習する必要がなくなります。アップサンプリングされたマップは疎であり、その後訓練可能なフィルターとの畳み込みによって密集した特徴マップが生成されます。我々は提案したアーキテクチャを広く採用されているFCNや有名なDeepLab-LargeFOV、DeconvNetアーキテクチャと比較しました。この比較により、良いセグメンテーション性能を得るためのメモリと精度のトレードオフが明らかになりました。SegNetは主にシーン理解アプリケーションのために開発されました。そのため、推論時のメモリ効率と計算時間効率を重視して設計されています。また、他の競合アーキテクチャよりも大幅に少ない訓練可能なパラメータ数を持つことも特徴です。私たちは道路シーンとSUN RGB-D室内シーンセグメンテーションタスクにおいてSegNetと他のアーキテクチャを制御下でベンチマークテストを行い、SegNetが競合他社と比べて優れた性能と競争力のある推論時間を提供し、さらに推論時のメモリ効率も高いことを示しました。また、SegNetのCaffe実装およびウェブデモを以下で提供しています: http://mi.eng.cam.ac.uk/projects/segnet/