2ヶ月前
長期空間時間グラフを用いたアクティブスピーカー検出の学習
Min, Kyle ; Roy, Sourya ; Tripathi, Subarna ; Guha, Tanaya ; Majumdar, Somdeb

要約
複数の話者が登場するビデオにおけるアクティブスピーカー検出(Active Speaker Detection: ASD)は、効果的な音声視覚特徴量と長時間ウィンドウでの空間時系列相関を学習する必要があるため、困難な課題となっています。本論文では、このような複雑なタスクを解決できる新しい空間時系列グラフ学習フレームワークであるSPELLを提案します。これにより、各ビデオフレーム内の人物はまずそのフレームに固有のノードとしてエンコードされます。同一人物に対応するフレーム間のノードは接続され、その時間的な動態がエンコードされます。また、同一フレーム内のノードも接続され、人物間の関係がエンコードされます。したがって、SPELLはASDをノード分類タスクに還元します。重要な点は、SPELLが計算コストのかかる完全結合グラフニューラルネットワークに依存せずに、すべてのノードに対して長時間コンテキストで推論できることです。AVA-ActiveSpeakerデータセットを用いた広範な実験を通じて、グラフベース表現の学習が明示的な空間構造と時系列構造によりアクティブスピーカー検出性能を大幅に向上させることを示しています。SPELLは以前の最先端手法よりも優れた結果を達成しながら、著しく低いメモリと計算リソースを必要としています。当該コードは公開されており、以下のURLからアクセスできます: https://github.com/SRA2/SPELL