9日前

感情的な動画コンテンツ分析を目的としたマルチモーダル注目メカニズムとタイム同期コメントを用いた表現学習

{Lin Fang, Shangfei Wang, Jicai Pan}
要約

視覚信号および音声信号に内在する時間的パターンは、感情的動画コンテンツ解析において極めて重要であるが、まだ十分に探求されていない。本論文では、時間情報を包括的に捉えることを目的として、新たな時間意識型マルチモーダル(Temporal-Aware Multimodal: TAM)手法を提案する。具体的には、動画セグメント内およびセグメント間で異なるモダリティに対して注目機構(attention-based)を用いた融合を実施するクロス時間マルチモーダル融合モジュールを設計した。これにより、異なるモダリティ間の時間的関係を包括的に捉えることが可能となる。さらに、単一の感情ラベルでは各セグメントの表現学習に十分な教師信号が得られず、時間的パターンの抽出が困難となる。そこで、ウェブ上に容易に入手可能であり、豊富な感情的ヒントを含む時間同期コメント(Time-synchronized Comments: TSCs)を補助的な教師信号として活用する。これに基づき、2つのTSCに基づく自己教師学習タスクを設計した。1つ目は、動画表現およびTSCの文脈的意味からTSC内の感情語を予測することを目的とし、2つ目は、動画表現とTSC埋め込み間の相関を計算することで、TSCが出現する動画セグメントを予測することを目的としている。これらの自己教師学習タスクを用いて、ラベル付けコストが不要な大規模な動画-TSCデータセット(ウェブからクロール取得)上でクロス時間マルチモーダル融合モジュールを事前学習する。この自己教師学習プロセスにより、TSCを含むセグメントに対する表現学習が促進され、より豊かな時間的感情パターンを捉える能力が向上する。3つのベンチマークデータセットにおける実験結果から、提案手法の融合モジュールが感情的動画コンテンツ解析において最先端の性能を達成することが示された。消去実験(ablation study)により、TSCに基づく事前学習を経た後、融合モジュールがより多くのセグメントの感情的パターンを学習し、性能が向上することが確認された。

感情的な動画コンテンツ分析を目的としたマルチモーダル注目メカニズムとタイム同期コメントを用いた表現学習 | 最新論文 | HyperAI超神経