EasyCom: 시끄러운 환경에서의 간편한 통신을 위한 알고리즘을 지원하는 증강현실 데이터셋

증강현실(AR) 플랫폼은 코크테일 파티 효과(Cocktail Party Effect) 완화에 기여할 잠재력을 지닌다. 향후 AR 헤드셋은 다양한 모달리티를 아우르는 센서 어레이로부터 정보를 활용할 수 있을 것으로 기대된다. 비음향 신호 처리 및 머신러닝 알고리즘의 훈련과 검증, 예를 들어 비음향 신호 집중(Beam-forming) 및 음성 향상(Speech Enhancement)과 같은 작업을 수행하기 위해서는 고품질의 대표성 있는 데이터가 필요하다. 저자의 지식에 따르면, 본 논문 게재 시점까지는 소음이 있는 환경에서 동적인 움직임과 대화가 포함된 동기화된 에고센트릭(egocentric) 다중 채널 오디오 및 비디오 데이터를 포함하는 공개 데이터셋은 존재하지 않았다. 본 연구에서는 AR 안경 착용자의 대화 향상을 위한 알고리즘 훈련 및 검증에 유용한 5시간 이상의 다중 모달 데이터를 포함하는 데이터셋을 제시하고, 평가하며 공개한다. 기준 방법에 대한 음성 이해도, 음질 및 신호 대 잡음비(SNR) 향상 결과를 제시하며, 모든 테스트 지표에서 개선 효과를 확인하였다. 공개하는 데이터셋에는 AR 안경의 에고센트릭 다중 채널 마이크 배열 오디오, 광각 RGB 비디오, 음성 소스의 자세 정보, 헤드셋 마이크 오디오, 음성 활성도(annotation), 음성 전사본, 헤드 경계 박스, 대화의 대상 및 음성 소스 식별 레이블이 포함되어 있다. 본 데이터셋은 AR 기반의 다중 모달 솔루션을 통한 코크테일 파티 문제 해결을 촉진하기 위해 제작 및 공개하는 것이다.