15일 전

animal2vec 및 MeerKAT: 희귀 이벤트 원시 오디오 입력을 위한 자체 학습형 트랜스포머와 생물음성학을 위한 대규모 참조 데이터셋

Julian C. Schäfer-Zimmermann, Vlad Demartsev, Baptiste Averly, Kiran Dhanjal-Adams, Mathieu Duteil, Gabriella Gall, Marius Faiß, Lily Johnson-Ulrich, Dan Stowell, Marta B. Manser, Marie A. Roch, Ariana Strandburg-Peshkin
animal2vec 및 MeerKAT: 희귀 이벤트 원시 오디오 입력을 위한 자체 학습형 트랜스포머와 생물음성학을 위한 대규모 참조 데이터셋
초록

생물음향 연구는 동물 행동, 보존, 생태학 이해에 있어 핵심적인 분야이지만, 동물의 음성 신호가 희귀한 막대한 데이터셋을 분석해야 하는 거대한 과제에 직면해 있다. 딥러닝 기법은 점차 표준이 되고 있으나, 생물음향 분야에 이를 적용하는 것은 여전히 어려운 과제이다. 본 연구에서는 해석 가능한 대규모 트랜스포머 모델인 animal2vec와 희소하고 불균형한 생물음향 데이터에 특화된 자기지도 학습(self-supervised learning) 기반 학습 방식을 제안한다. 이 모델은 레이블이 없는 오디오 데이터로부터 학습을 시작한 후, 레이블이 있는 데이터를 통해 이해도를 보완한다. 또한, 마르카트(서리카타 서리카타, Suricata suricatta)의 음성 신호를 밀리초 해상도로 정밀하게 주석화한 대규모 레이블 데이터셋인 MeerKAT(Meerkat Kalahari Audio Transcripts)를 개발하고 공개한다. 이는 현재까지 공개된 비인간 육상 포유류에 대한 가장 큰 레이블 데이터셋이다. 제안된 모델은 MeerKAT와 공개된 NIPS4Bplus 조류 음성 데이터셋에서 기존 방법들을 모두 상회하는 성능을 보였다. 더불어, animal2vec는 레이블이 제한적인 상황(소수 샘플 학습, few-shot learning)에서도 우수한 성능을 발휘한다. animal2vec와 MeerKAT는 생물음향 연구의 새로운 기준을 제시하며, 실제 지표 정보가 부족한 환경에서도 대량의 데이터를 효과적으로 분석할 수 있는 가능성을 제공한다.

animal2vec 및 MeerKAT: 희귀 이벤트 원시 오디오 입력을 위한 자체 학습형 트랜스포머와 생물음성학을 위한 대규모 참조 데이터셋 | 최신 연구 논문 | HyperAI초신경