11일 전

STARSS22: 음향 이벤트의 시공간 주석이 포함된 실제 장면의 공간 기록 데이터셋

Archontis Politis, Kazuki Shimada, Parthasaarathy Sudarsanam, Sharath Adavanne, Daniel Krause, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Yuki Mitsufuji, Tuomas Virtanen
STARSS22: 음향 이벤트의 시공간 주석이 포함된 실제 장면의 공간 기록 데이터셋
초록

이 보고서는 소니-타우 실감적 공간 음향 환경 2022(Sony-TAu Realistic Spatial Soundscapes 2022, STARS22) 데이터셋을 소개하며, 두 개의 서로 다른 장소 내 다양한 실내 환경에서 촬영한 실제 장면의 공간 음향 기록을 포함한다. 이 데이터셋은 고해상도 구형 마이크 배열을 활용해 촬영되었으며, 1차 아미보닉스(first-order Ambisonics)와 정사면체 마이크 배열(tetrahedral microphone array)의 두 가지 4채널 포맷으로 제공된다. 데이터셋 내 포함된 13개의 타겟 음향 클래스에 속하는 음향 사건들은 인간의 주관적 주석(annotation)과 광학 추적(optical tracking) 기술을 결합하여 시간적 및 공간적으로 정확히 주석이 달렸다. 이 데이터셋은 DCASE2022 챌린지의 음향 사건 위치 추정 및 탐지(Task 3) 과제를 위한 개발 및 평가 데이터셋으로 사용되며, 이전 버전들이 합성된 공간 음향 시나리오 기록에 기반했던 것과 달리, 실재 음향 환경을 기반으로 하여 훨씬 더 큰 도전 과제를 제시한다. 데이터셋의 구체적인 사양은 촬영 및 주석 처리 과정, 타겟 클래스와 그 존재 비율, 개발 및 평가용 데이터 분할 방식 등을 포함하여 상세히 설명된다. 또한, 이 보고서는 챌린지와 함께 제공되는 기준 시스템(baseline system)을 제시하며, 이전 버전과의 차이점에 초점을 맞춘다. 특히, 동일 클래스의 음향 사건이 동시에 다수 발생하는 상황을 처리하기 위해 다중 ACCDOA(multi-ACCDOA) 표현 방식을 도입하였으며, 마이크 배열 포맷에 대한 개선된 입력 특징을 지원하도록 구현하였다. 기준 시스템의 실험 결과는 적절한 학습 전략을 적용할 경우 실제 음향 시나리오 기록에서도 합리적인 탐지 및 위치 추정 성능을 달성할 수 있음을 보여준다. 데이터셋은 다음 링크에서 공개된다: https://zenodo.org/record/6387880.

STARSS22: 음향 이벤트의 시공간 주석이 포함된 실제 장면의 공간 기록 데이터셋 | 최신 연구 논문 | HyperAI초신경