
要約
最新の手法におけるセマンティックセグメンテーションの効率向上には、計算コストの増大や、グローバルコンテキストとローカルコンテキストからのセマンティック情報の統合などの課題を克服する必要があります。本研究では、最近の成功事例と問題点を踏まえ、セマンティックセグメンテーションにおいて畳み込みニューラルネットワーク(CNNs)が遭遇している問題に対処するため、独自の効率的な残差ネットワークEfficient-ResNetを用いたエンコーダー-デコーダー構造を提案します。エンコーダー部分では、効率的な残差ネットワークの出力のグローバルコンテキストと同等のサイズで等変性および特徴量ベースのセマンティック情報を統合することを目指し、注意強化ゲート(AbGs)と注意強化モジュール(AbMs)を導入します。一方、デコーダー部分ではAbMに着想を得た追加の注意統合ネットワーク(AfNs)を開発しました。AfNsは、デコーダー部分に追加の畳み込み層を配置することで、セマンティック情報の一対一変換の効率を向上させる設計となっています。我々のネットワークはCamVidデータセットとCityscapesデータセットという難易度が高いデータセットでテストされ、提案手法は残差ネットワークにおいて顕著な改善を示しました。当該研究チームが知る限り、開発されたネットワークSERNet-FormerはCamVidデータセットで最先端の結果(平均IoU 84.62%)を達成し、Cityscapes検証データセットでも挑戦的な結果(平均IoU 87.35%)を達成しています。