
人間の顔におけるアクションユニット(AUs)の検出は、様々なAUが異なるスケールで顔の様々な領域に微細な変化をもたらすため、困難を伴います。現在までの研究では、重要な領域を強調することでAUを認識しようとする試みがなされてきました。しかし、専門家の事前知識を領域定義に組み込むことはまだ十分に活用されておらず、現行のAU検出手法では、専門家の事前知識を使用して直接的にAUに関連する領域に適応的に焦点を当てるための地域別畳み込みニューラルネットワーク(R-CNN)が利用されていません。本研究では、専門家の事前知識を取り入れた新しいR-CNNベースのモデルであるAU R-CNNを提案します。提案された解決策は主に以下の2つの貢献を提供します:(1) AU R-CNNは、様々なAUが存在する異なる顔の領域を直接観察します。具体的には、専門家の事前知識を領域定義とRoIレベルラベル定義にエンコードするためのAU分割規則を定義しました。この設計により、既存の手法よりも大幅に優れた検出性能が得られます。(2) 畳み込み長期短期記憶(Convolutional LSTM)、二重ストリームネットワーク(Two Stream Network)、条件付きランダムフィールド(Conditional Random Field)、時間的な行動局所化ネットワーク(Temporal Action Localization Network)などの動的モデルをAU R-CNNに統合し、動的モデルの性能向上の背景にある理由を探求・分析しました。実験結果は、静的なRGB画像情報のみを使用し、オプティカルフローに基づくものなしでもAU R-CNNが動的モデルと融合したものを上回ることを示しています。また、同じバックボーンを使用する従来のCNNと比較しても、異なる解像度の画像においてAU R-CNNの方が優れていることが確認されました。これにより最先端のAU検出認識性能が達成されました。完全なネットワークはエンドツーエンドで学習可能です。BP4DおよびDISFAデータセットでの実験結果は我々のアプローチの有効性を示しています。実装コードはオンラインで公開されています。