7ヶ月前

マルチモーダル

音声および音声処理

オーディオ

マルチモーダル

コンピュータビジョン

Shiguang Shan Zhongqin Wu Xiao Liu Shuang Yang Susan Liang Yuanhang Zhang

概要

本報告では、ActivityNet Challenge 2021におけるAVA Active Speaker Detection（ASD）タスクに対する当研究グループの手法について簡潔に述べる。本研究で提案する手法は、「拡張統合的コンテキストネットワーク（Extended Unified Context Network, Extended UniCon）」であり、耐障害性の高いASDを実現するために設計された新規な「統合的コンテキストネットワーク（Unified Context Network, UniCon）」に基づいている。UniConは、複数種類のコンテキスト情報を統合的に活用し、すべての候補を一括して最適化する点が特徴である。本研究では、音声特徴量の選定、時系列モデリングアーキテクチャ、および損失関数の設計の観点から、元のUniConにいくつかの改良を加えた。これらの改良を組み合わせた最良のモデルアンサンブルは、事前学習を一切用いない状態で、AVA-ActiveSpeakerテストセットにおいて93.4%のmAPを達成し、新たなSOTA（最良の結果）を記録した。現在、この結果はActivityNet Challengeの順位表で首位を維持している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

マルチモーダル

音声および音声処理

オーディオ

マルチモーダル

コンピュータビジョン

Shiguang Shan Zhongqin Wu Xiao Liu Shuang Yang Susan Liang Yuanhang Zhang

概要

本報告では、ActivityNet Challenge 2021におけるAVA Active Speaker Detection（ASD）タスクに対する当研究グループの手法について簡潔に述べる。本研究で提案する手法は、「拡張統合的コンテキストネットワーク（Extended Unified Context Network, Extended UniCon）」であり、耐障害性の高いASDを実現するために設計された新規な「統合的コンテキストネットワーク（Unified Context Network, UniCon）」に基づいている。UniConは、複数種類のコンテキスト情報を統合的に活用し、すべての候補を一括して最適化する点が特徴である。本研究では、音声特徴量の選定、時系列モデリングアーキテクチャ、および損失関数の設計の観点から、元のUniConにいくつかの改良を加えた。これらの改良を組み合わせた最良のモデルアンサンブルは、事前学習を一切用いない状態で、AVA-ActiveSpeakerテストセットにおいて93.4%のmAPを達成し、新たなSOTA（最良の結果）を記録した。現在、この結果はActivityNet Challengeの順位表で首位を維持している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています