HyperAIHyperAI

Command Palette

Search for a command to run...

ICTCAS-UCAS-TAL による ActivityNet Challenge 2021 における AVA-ActiveSpeaker タスクへの提出

Shiguang Shan Zhongqin Wu Xiao Liu Shuang Yang Susan Liang Yuanhang Zhang

概要

本報告では、ActivityNet Challenge 2021におけるAVA Active Speaker Detection(ASD)タスクに対する当研究グループの手法について簡潔に述べる。本研究で提案する手法は、「拡張統合的コンテキストネットワーク(Extended Unified Context Network, Extended UniCon)」であり、耐障害性の高いASDを実現するために設計された新規な「統合的コンテキストネットワーク(Unified Context Network, UniCon)」に基づいている。UniConは、複数種類のコンテキスト情報を統合的に活用し、すべての候補を一括して最適化する点が特徴である。本研究では、音声特徴量の選定、時系列モデリングアーキテクチャ、および損失関数の設計の観点から、元のUniConにいくつかの改良を加えた。これらの改良を組み合わせた最良のモデルアンサンブルは、事前学習を一切用いない状態で、AVA-ActiveSpeakerテストセットにおいて93.4%のmAPを達成し、新たなSOTA(最良の結果)を記録した。現在、この結果はActivityNet Challengeの順位表で首位を維持している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています