17日前

EasyCom:騒音環境における簡単な通信を支援するための拡張現実データセット

Jacob Donley, Vladimir Tourbabin, Jung-Suk Lee, Mark Broyles, Hao Jiang, Jie Shen, Maja Pantic, Vamsi Krishna Ithapu, Ravish Mehra
EasyCom:騒音環境における簡単な通信を支援するための拡張現実データセット
要約

拡張現実(AR)は、プラットフォームとして「カクテルパーティー効果」の緩和を促進する可能性を秘めている。今後のARヘッドセットは、複数のモダリティにわたり多様なセンサから得られる情報を活用できる可能性がある。ビームフォーミングや音声強調といったタスクにおける信号処理および機械学習アルゴリズムの訓練および評価には、高品質で代表的なデータが必要となる。著者らの知る限り、本論文発表時点において、騒音環境下での動的な移動と会話を含み、エゴセントリックなマルチチャンネル音声と映像が同期されたデータセットは存在しない。本研究では、ARグラス着用者の会話品質向上を目的としたアルゴリズムの訓練および評価に有用な5時間以上にわたるマルチモーダルデータを含むデータセットを提示し、評価・公開する。ベースライン手法に対する音声の理解性、音質、信号対雑音比(SNR)の改善結果を示し、すべての評価指標において改善が確認された。公開するデータセットには、ARグラスのエゴセントリックなマルチチャンネルマイクロフォンアレイ音声、広視野角RGB映像、発話源の姿勢情報、ヘッドセットマイクロフォン音声、音声活動のアノテーション、音声認識テキスト、頭部のバウンディングボックス、発話対象および発話源の識別ラベルが含まれる。本データセットの作成と公開により、カクテルパーティー問題に対するマルチモーダルARソリューションに関する研究の促進を図るものである。