18日前

特徴注目と誤差一貫性制約を用いた顕在的人間性のマルチモーダル評価

{Hamdi Dibeklioğlu, Uğur Güdükbay, Süleyman Aslan}
要約

近年、パーソナリティ認識が不可欠となるパーソナリティコンピューティングおよびエモーショナルコンピューティングは、多くの研究分野において注目を集めている。本研究では、動画から「五大性格特性(Big Five personality traits)」を識別するための新規アプローチを提案する。この目的のため、環境外観(シーン)、顔面外観、声、および音声の文字起こし(transcribed speech)という4つの異なるモダリティを用いる。各モダリティに対して専用のサブネットワークを設計し、信頼性の高いモダリティ固有の表現を学習した後、各表現の次元に対して重みを再調整するアテンション機構を用いて、マルチモーダル情報の最適な統合を行う。さらに、各性格特性の推定において同等の重要性を確保するため、特性固有の誤差が可能な限り一致するように制約を課す新たな損失関数を導入する。モデルの信頼性をさらに高めるために、各モダリティ専用サブネットワークのバックボーンとして、事前学習済みの最先端アーキテクチャ(ResNet、VGGish、ELMo)を採用し、時間的動的変化を捉えるために多層LSTM(Long Short-Term Memory)ネットワークを併用する。マルチモーダル最適化の計算複雑性を低減するため、2段階モデリングを採用する。すなわち、まず各モダリティ専用サブネットワークを個別に学習し、その後、全体ネットワークを微調整してマルチモーダルデータを統合的にモデル化する。大規模なChaLearn First Impressions V2チャレンジデータセットを用いた実験により、提案モデルの信頼性および各モダリティの情報量の有効性を評価した。実験結果から、提案するアテンション機構および誤差の一貫性制約の有効性が明らかになった。個別モダリティにおける最良の性能は顔面情報から得られたが、4つのモダリティを統合した場合、平均精度91.8%を達成し、自動的パーソナリティ分析分野における従来の最先端技術を上回った。