2ヶ月前

アクティブ話者検出のための軽量モデル

Liao, Junhua ; Duan, Haihan ; Feng, Kanghui ; Zhao, Wanbing ; Yang, Yanbing ; Chen, Liangyin
アクティブ話者検出のための軽量モデル
要約

アクティブスピーカー検出は、オーディオビジュアルシナリオ理解における難易度の高い課題であり、1人または複数人の話者状況において誰が話しているかを検出することを目指しています。この課題は、話者ダイアリゼーション、話者追跡、自動ビデオ編集などのアプリケーションにおいて重要であるため、広範な注目を集めています。既存の研究では、複数の候補情報を入力し、複雑なモデルを設計することで性能向上を試みています。これらの方法は優れた性能を達成しましたが、メモリと計算資源の大量消費により、リソースに制限のあるシナリオでの適用が困難となっています。そこで、当研究では入力候補の削減、2Dおよび3D畳み込みの分割によるオーディオビジュアル特徴量抽出、低計算複雑度のゲート付き再帰ユニット(GRU)を使用したクロスモーダルモデリングによって軽量なアクティブスピーカー検出アーキテクチャを構築しました。AVA-ActiveSpeakerデータセット上の実験結果は、当フレームワークが競合するmAP性能(94.1% 対 94.2%)を達成しつつ、最新手法よりも大幅に低いリソースコストで動作することを示しています。特にモデルパラメータ(1.0M 対 22.5M、約23倍)とFLOPs(0.6G 対 2.6G、約4倍)においてその差異が顕著です。さらに当フレームワークはColumbiaデータセットでも良好な性能を発揮し、堅牢性が高いことが確認されています。コードとモデルの重みは以下のURLから入手可能です:https://github.com/Junhua-Liao/Light-ASD

アクティブ話者検出のための軽量モデル | 最新論文 | HyperAI超神経