12日前
音声視覚連合型アクティブスピーカ検出のためのマルチタスク学習
{Shiguang Shan, Shuang Yang, Jingyun Xiao, Yuanhang Zhang}

要約
本報告では、ActivityNet Challenge 2019 のアクティブスピーカ検出タスク(タスク B-2)への提出物の背後にあるアプローチを説明する。我々は、リップリーディングに事前学習された3D-ResNet18視覚モデルと、音声から映像への同期に事前学習されたVGG-M音響モデルを基盤とする新しい音声・視覚統合モデルを提案する。このモデルは、マルチタスク学習の枠組みで2つの損失関数を用いて学習される:アクティブスピーカーの音声と映像特徴量の一致を強制するコントラスティブ損失と、スピーカ/非スピーカラベルを取得するための通常の交差エントロピー損失である。このモデルはAVAActiveSpeakerの検証セットにおいて84.0%のmAPを達成した。実験結果から、事前学習された埋め込み表現が異なるタスクやデータ形式間で良好に転移可能であることが示されるとともに、提案するマルチタスク学習戦略の有効性が確認された。