
要約
マルチモーダル感情分析は、動画における感情の識別を目的とする研究分野として、着実に発展している。現在の研究では、発話(utterance)を独立した単位として扱うことが一般的であり、動画内の発話間の相互依存性や関係性を無視している。本論文では、同じ動画内の周囲の文脈情報を発話が捉えることを可能にするLSTMベースのモデルを提案する。これにより、感情分類プロセスが効果的に支援される。提案手法は、最先端技術に対して5~10%の性能向上を達成し、汎化能力においても高いロバスト性を示した。
マルチモーダル感情分析は、動画における感情の識別を目的とする研究分野として、着実に発展している。現在の研究では、発話(utterance)を独立した単位として扱うことが一般的であり、動画内の発話間の相互依存性や関係性を無視している。本論文では、同じ動画内の周囲の文脈情報を発話が捉えることを可能にするLSTMベースのモデルを提案する。これにより、感情分類プロセスが効果的に支援される。提案手法は、最先端技術に対して5~10%の性能向上を達成し、汎化能力においても高いロバスト性を示した。