
要約
最近のアクティブ・スピーカー検出(ASD)問題における進展は、特徴抽出と空間時間的なコンテキスト集約の二段階プロセスに基づいています。本論文では、特徴学習とコンテキスト予測を統合して学習するエンドツーエンドのASDワークフローを提案します。我々が提案するエンドツーエンドで学習可能なネットワークは、マルチモーダル埋め込みを同時に学習し、空間時間的なコンテキストを集約します。これにより、より適切な特徴表現が得られ、ASDタスクの性能が向上します。また、iGNN(interleaved graph neural network)ブロックを導入します。このブロックは、ASD問題における主要なコンテキスト源に応じてメッセージ伝播を分割します。実験結果から、iGNNブロックから得られる集約された特徴量がASDに適しており、最先端の性能を達成することが示されています。最後に、弱教師あり戦略を設計しました。この戦略は、オーディオビジュアルデータを利用しつつも、オーディオアノテーションのみに依存してASD問題に取り組むことを可能にします。これは、オーディオ信号と可能な音源(話者)との直接的な関係をモデル化し、コントラスティブ損失を導入することで実現されます。本プロジェクトに関連するすべてのリソースは以下のURLで公開されます:https://github.com/fuankarion/end-to-end-asd.