6ヶ月前

概要

シーン解析はコンピュータビジョンにおける挑戦的な課題であり、画素単位の分類問題として定式化できる。従来の深層学習ベースの手法では、すべての物体カテゴリを認識するために一つの汎用分類器を用いることが一般的である。しかし、類似した外観や意味を持つカテゴリ間では、汎用分類器が誤分類を引き起こしやすい。本論文では、より正確な分類を実現するため、統合分類モデルと分散に基づく正則化手法を提案する。一方で、統合分類モデルは汎用分類器に加え、混乱しやすいカテゴリを区別するための精緻化分類器を含む複数の分類器を備えている。他方で、分散に基づく正則化は、すべてのカテゴリのスコア間の差を最大化することで誤分類を低減する。具体的には、統合分類モデルは以下の3段階で構成される。第一段階では、各画素の特徴量を抽出する。第二段階では、抽出された特徴に基づいて全カテゴリに対して画素を分類し、初期の分類結果を生成する。第三段階では、初期スコアが高いカテゴリを重点的に区別できるように、精緻化分類器を用いて分類結果を修正する。分散に基づく正則化を組み込んだ統合損失関数を用いてモデルを学習する。本手法は、3つの代表的なシーン解析データセットにおける広範な実験により、有効性が確認された。

ソースPDF コードを表示