11日前
PP-LiteSeg:優れたリアルタイム意味セグメンテーションモデル
Juncai Peng, Yi Liu, Shiyu Tang, Yuying Hao, Lutao Chu, Guowei Chen, Zewu Wu, Zeyu Chen, Zhiliang Yu, Yuning Du, Qingqing Dang, Baohua Lai, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma

要約
現実世界における応用は、意味的セグメンテーション手法に対して高い要求を課している。ディープラーニングの進展により意味的セグメンテーションは著しい進歩を遂げたが、リアルタイム処理を実現する手法の性能はまだ満足できるものではない。本研究では、リアルタイム意味的セグメンテーションタスク向けに新たな軽量モデルであるPP-LiteSegを提案する。具体的には、従来のデコーダーの計算負荷を低減するため、柔軟かつ軽量なデコーダー(Flexible and Lightweight Decoder, FLD)を導入する。特徴表現の強化を目的として、空間的およびチャネルアテンションを活用し、重みを生成した後、入力特徴をその重みと融合する統一的アテンション融合モジュール(Unified Attention Fusion Module, UAFM)を提案する。さらに、低コストでグローバルなコンテキストを効率的に集約するシンプルなピラミッドプーリングモジュール(Simple Pyramid Pooling Module, SPPM)を設計した。広範な評価実験により、PP-LiteSegは他の手法と比較して精度と速度の優れたトレードオフを達成することが実証された。Cityscapesテストセットにおいて、NVIDIA GTX 1080Ti上で72.0%のmIoU / 273.6 FPSおよび77.5%のmIoU / 102.6 FPSを達成した。ソースコードおよびモデルはPaddleSegにて公開されている:https://github.com/PaddlePaddle/PaddleSeg。