16日前
ICTCAS-UCAS-TAL による ActivityNet Challenge 2021 における AVA-ActiveSpeaker タスクへの提出
{Shiguang Shan, Zhongqin Wu, Xiao Liu, Shuang Yang, Susan Liang, Yuanhang Zhang}

要約
本報告では、ActivityNet Challenge 2021におけるAVA Active Speaker Detection(ASD)タスクに対する当研究グループの手法について簡潔に述べる。本研究で提案する手法は、「拡張統合的コンテキストネットワーク(Extended Unified Context Network, Extended UniCon)」であり、耐障害性の高いASDを実現するために設計された新規な「統合的コンテキストネットワーク(Unified Context Network, UniCon)」に基づいている。UniConは、複数種類のコンテキスト情報を統合的に活用し、すべての候補を一括して最適化する点が特徴である。本研究では、音声特徴量の選定、時系列モデリングアーキテクチャ、および損失関数の設計の観点から、元のUniConにいくつかの改良を加えた。これらの改良を組み合わせた最良のモデルアンサンブルは、事前学習を一切用いない状態で、AVA-ActiveSpeakerテストセットにおいて93.4%のmAPを達成し、新たなSOTA(最良の結果)を記録した。現在、この結果はActivityNet Challengeの順位表で首位を維持している。