2ヶ月前
意味的なシーンの特性とマルチストリーム畳み込みアーキテクチャを活用した文脈に基づく野生環境でのビデオベース視覚感情認識へのアプローチ
Ioannis Pikoulis; Panagiotis P. Filntisis; Petros Maragos

要約
本研究では、実世界におけるビデオベースの視覚的感情認識タスクに取り組んでいます。従来の手法は、頭や体の向き、低解像度、悪条件の照明などにより感情情報を提供する身体的および顔の特徴が利用できない場合、正確な感情予測を達成することが難しいことがしばしばあります。私たちはこの問題を緩和するために、シーン特性と属性という形での視覚的コンテキストを活用し、より広範な感情認識フレームワークの一環として提案します。提案モデルの中心的な構成要素は一時的セグメントネットワーク(Temporal Segment Networks: TSN)です。RGB入力モダリティに加えて、密な光学フロー(Optical Flow)も使用し、直感的なマルチストリームアプローチによって動きをより効果的に符号化します。さらに、骨格に基づく学習に焦点を当て、行動を中心としたデータを用いて空間時間グラフ畳み込みニューラルネットワーク(Spatial-Temporal Graph Convolutional Network: ST-GCN)を事前学習することで、感情認識タスクへの適用を目指しています。挑戦的な「Body Language Dataset (BoLD)」に対する私たちの広範な実験結果は、既存の手法よりも優れた性能を示しており、上記のすべてのモジュールを適切にネットワークアンサンブルに組み込むことで、以前の最高公表認識スコアを大幅に上回ることに成功しました。