
要約
本稿では、訓練データとテストデータが異なるデータセットに跨る状況下で、テスト動画が訓練時においてラベル付けされておらず、かつ利用できないという条件下における人間行動認識の問題に取り組む。この状況では、共通語彙の学習やドメイン転移技術は適用できない。まず、新しいデータセット上で評価した際の分類器性能の低さの原因を検討し、シーン背景が行動表現および認識に与える影響を定量的に分析する。背景特徴量とジスト特徴空間のパーティショニングのみを用いて、近年のデータセットにおける背景シーンが非常に識別可能であり、それらを用いて合理的な精度で行動を分類可能であることを示す。次に、3次元MRF(マルコフ確率場)フレームワークを用いて、動き、外見、注目度(サリエンシー)を統合することで、動画の各ピクセルが前景領域である確信度を推定する新しい手法を提案する。さらに、得られた前景確信度を活用する複数の方法を提案する。具体的には、bag-of-words語彙の改善、動画のヒストグラム表現の強化、および新たなヒストグラム分解に基づく表現とカーネルの構築である。これらの前景確信度を用いて、あるデータセットで訓練された行動認識モデルを別のデータセットでテストする実験を実施した。複数のデータセットにおいて広範な実験を行い、従来のベースライン手法と比較して、データセット間での認識精度が著しく向上することを確認した。