
要約
我々は、セマンティックセグメンテーションのための新しい効率的なアーキテクチャを提案する。このアーキテクチャは「ウォーターフォール(Waterfall)」と呼ばれるアトロス空間プールング構造を基盤としており、ネットワークパラメータ数およびメモリ使用量を削減しつつ、顕著な精度向上を達成する。提案するウォーターフォールアーキテクチャは、カスケード構造における段階的フィルタリングの効率性を活用しつつ、空間ピラミッド構成と同等のマルチスケールの視野(field-of-view)を維持する。さらに、本手法は条件付きランダムフィールド(Conditional Random Fields, CRF)を用いた後処理ステージに依存しないため、計算の複雑さとトレーニングに要する時間がさらに削減される。本研究では、ResNetをバックボーンとして用いたウォーターフォールアプローチが、Pascal VOCおよびCityscapesの両データセットにおいて、パラメータ数を大幅に削減しつつ、最先端の性能を達成できることを実証した。