8ヶ月前

概要

拡張現実デバイスは、人間の知覚を向上させ、複雑な会話環境における他の補助機能を可能にする潜在能力を持っています。これらの社会的相互作用を理解するためには、必要な音声・視覚的なコンテキストを効果的に捉えることが最初に求められます。具体的には、デバイスの使用者と周囲の人々の音声活動を検出および位置特定する必要があります。これらのタスクはエゴセントリックな性質により難易度が高くなります：使用者の頭部運動によってモーションブラーが発生し、周囲の人々が難しい視点から見える場合があり、また遮蔽や視覚的な混雑、音声ノイズ、悪条件の照明などが存在する可能性があります。このような条件下では、従来の最先端のアクティブスピーカー検出方法でも満足できる結果を得ることができません。そこで、我々はビデオとマルチチャネルマイクアレイ音声の両方を使用した新しい設定から問題に取り組みました。我々は、堅牢な音声活動検出と位置特定の結果を提供可能な新しいエンドツーエンド深層学習手法を提案します。本手法は従来の方法とは異なり、カメラの視野外であっても球面上のすべての方向からのアクティブスピーカーを位置特定しながら、同時にデバイス使用者自身の音声活動も検出することができます。我々の実験結果は、提案手法が優れた結果を与えられること、リアルタイムで動作すること、そしてノイズや混雑に対して堅牢であることを示しています。

ソースPDF