
要約
一般的なセマンティックセグメンテーション手法は、本質的にピクセル特徴量に対するクラスの条件付き確率 p(クラス|ピクセル特徴量) を密度的に推定する判別型分類器である。このアプローチは直感的ではあるが、背後にあるデータ分布 p(ピクセル特徴量|クラス) を無視しており、分布外データ(out-of-distribution data)の検出に苦戦する。これに立ち向かうため、本研究では、ピクセル特徴量とクラスの同時分布 p(ピクセル特徴量, クラス) を密度的にモデリングする生成型分類器を用いる新しいセグメンテーションモデル族「GMMSeg」を提案する。各クラスに対して、期待値最大化(EM)アルゴリズムを用いてガウス混合モデル(GMM)を構築することで、クラス条件付き密度を効果的に捉える。一方で、深層的な密度表現は判別型のアプローチによりエンドツーエンドで学習され、すなわち p(クラス|ピクセル特徴量) を最大化するように最適化される。この設計により、GMMSegは生成モデルと判別モデルの両方の利点を併せ持つ。さまざまなセグメンテーションアーキテクチャとバックボーンを用いた実験では、GMMSegは3つのクローズドセットデータセットにおいて、従来の判別型手法を上回る性能を示した。さらに印象的なことに、変更を加えずとも、GMMSegはオープンワールドデータセットにおいても良好な性能を発揮する。本研究は、関連分野における根本的な知見を提供すると確信している。