17日前

双方向アライメントネットワークを用いた高速かつ高精度なシーン解析

Yanran Wu, Xiangtai Li, Chen Shi, Yunhai Tong, Yang Hua, Tao Song, Ruhui Ma, Haibing Guan
双方向アライメントネットワークを用いた高速かつ高精度なシーン解析
要約

本稿では、高速かつ高精度なシーン解析を実現するための有効な手法として、双方向アライメントネットワーク(Bidirectional Alignment Network, BiAlignNet)を提案する。従来の代表的な手法であるBiSeNet~\cite{bisenet}は、コンテキストパスと空間パスという2つの異なるパスを用いて、それぞれ意味情報と詳細情報のバランスの取れた学習を実現していた。しかし、これらの2つのパス間の関係性は十分に探求されていなかった。本研究では、両パスが互いに補完的に作用することで、双方が相互に恩恵を受ける可能性があると主張する。この洞察に基づき、学習可能なフローフィールドを介して2パスの情報を相互にアライメントする新たなネットワークを提案する。ノイズや意味的ギャップを回避するため、ゲート付きフローアライメントモジュール(Gated Flow Alignment Module)を導入し、双方向的な特徴アライメントを実現した。さらに、空間パスがより詳細な情報を学習できるようにするため、エッジをガイドとするハードピクセルマイニング損失を提案し、アライメントされた学習プロセスを効果的に監視する。本手法は、Cityscapesデータセットの検証セットおよびテストセットにおいて、それぞれ80.1%および78.5%のmIoUを達成し、フル解像度入力でも30 FPSの実行速度を実現した。コードおよびモデルは、\url{https://github.com/jojacola/BiAlignNet}にて公開される。