8ヶ月前

マルチモーダル

ビデオ理解

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Juan León Alcázar Fabian Caba Heilbron Long Mai Federico Perazzi Joon-Young Lee Pablo Arbeláez Bernard Ghanem

概要

現在のアクティブスピーカー検出方法は、単一の話者の短期的な音声視覚情報をモデル化することに焦点を当てています。この戦略は単一話者シナリオに対処するには十分ですが、複数の候補話者の中から誰が話しているかを正確に識別するタスクでは、その精度が低下します。本論文では、長期的な時間軸上で複数の話者間の関係をモデル化する新しい表現である「アクティブスピーカーコンテキスト」を紹介します。我々のアクティブスピーカーコンテキストは、構造化された音声視覚観測値の集合体からペアワイズおよび時間的な関係を学習することを目的として設計されています。実験結果は、構造化された特徴量集合体がすでにアクティブスピーカー検出性能に寄与することを示しています。さらに、提案したアクティブスピーカーコンテキストがAVA-ActiveSpeakerデータセットにおいて最先端の性能を向上させ、mAP（平均精度）87.1% を達成することが確認されました。我々はアブレーションスタディを行い、この結果が長期的な多話者分析による直接的な帰結であることを検証しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

ビデオ理解

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Juan León Alcázar Fabian Caba Heilbron Long Mai Federico Perazzi Joon-Young Lee Pablo Arbeláez Bernard Ghanem

概要

現在のアクティブスピーカー検出方法は、単一の話者の短期的な音声視覚情報をモデル化することに焦点を当てています。この戦略は単一話者シナリオに対処するには十分ですが、複数の候補話者の中から誰が話しているかを正確に識別するタスクでは、その精度が低下します。本論文では、長期的な時間軸上で複数の話者間の関係をモデル化する新しい表現である「アクティブスピーカーコンテキスト」を紹介します。我々のアクティブスピーカーコンテキストは、構造化された音声視覚観測値の集合体からペアワイズおよび時間的な関係を学習することを目的として設計されています。実験結果は、構造化された特徴量集合体がすでにアクティブスピーカー検出性能に寄与することを示しています。さらに、提案したアクティブスピーカーコンテキストがAVA-ActiveSpeakerデータセットにおいて最先端の性能を向上させ、mAP（平均精度）87.1% を達成することが確認されました。我々はアブレーションスタディを行い、この結果が長期的な多話者分析による直接的な帰結であることを検証しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

コンテキストにおける能動的な話者 | 記事 | HyperAI超神経