エネルギーに基づくモデルによる深層確率的回帰

深層学習に基づく分類は一般的に標準化されたアプローチによって扱われる一方で、回帰問題に対しては多様な手法が用いられている。コンピュータビジョン分野では、特に人気のある手法の一つとして、信頼度ベース回帰(confidence-based regression)がある。この手法は、各入力-ターゲットペア(x, y)に対して信頼度値を予測することを特徴とする。このアプローチは優れた成果を示しているものの、重要なタスク依存の設計選択を必要とし、予測される信頼度値には自然な確率的意味が欠けているという課題がある。本研究では、明確な確率的解釈を備えた汎用的かつ概念的にシンプルな回帰手法を提案することで、これらの課題に取り組む。提案手法では、条件付きターゲット密度 p(y|x) をエネルギー関数に基づくモデルとして定式化し、深層ニューラルネットワークを用いて (x, y) から正規化されていない密度を予測する。この p(y|x) のモデルは、モンテカルロサンプリングを用いて近似された負対数尤度を直接最小化することで学習される。我々は、コンピュータビジョンにおける4つの回帰タスクに対して包括的な実験を行った。その結果、従来の直接回帰や他の確率的・信頼度ベースの手法と比較して、提案手法が優れた性能を示した。特に、COCOデータセットにおける物体検出タスクにおいて、Faster-RCNNに対して2.2%のAP(平均精度)向上を達成し、バウンディングボックス推定に応用した際には、視覚追跡タスクにおいて新たな最良性能(SOTA: State-of-the-Art)を樹立した。信頼度ベース手法とは異なり、本手法は年齢推定や頭部姿勢推定など、より一般的なタスクにも直接適用可能であることが示された。実装コードは https://github.com/fregu856/ebms_regression にて公開されている。