15 天前

animal2vec 与 MeerKAT:一种用于稀有事件原始音频输入的自监督 Transformer 模型及大规模生物声学参考数据集

Julian C. Schäfer-Zimmermann, Vlad Demartsev, Baptiste Averly, Kiran Dhanjal-Adams, Mathieu Duteil, Gabriella Gall, Marius Faiß, Lily Johnson-Ulrich, Dan Stowell, Marta B. Manser, Marie A. Roch, Ariana Strandburg-Peshkin
animal2vec 与 MeerKAT:一种用于稀有事件原始音频输入的自监督 Transformer 模型及大规模生物声学参考数据集
摘要

生物声学研究对于理解动物行为、保护生物学及生态学具有重要意义,但面临一项重大挑战:在海量数据中,动物叫声极为稀少。尽管深度学习技术日益成为标准方法,但将其有效应用于生物声学仍存在困难。为此,我们提出 animal2vec——一种可解释的大型Transformer模型,以及针对稀疏且不平衡生物声学数据量身定制的自监督训练方案。该模型首先从无标签音频中学习,再通过少量标注数据进一步优化其理解能力。此外,我们还发布了MeerKAT:Meerkat Kalahari Audio Transcripts——一个包含细粒度毫秒级标注的南非狐獴(Suricata suricatta)叫声数据集,目前为公开可用的非人类陆生哺乳动物中规模最大的标注数据集。在MeerKAT数据集和公开的NIPS4Bplus鸟类鸣声数据集上,animal2vec均显著优于现有方法。更重要的是,即使在标注数据极为有限的情况下(少样本学习),animal2vec仍表现出色。animal2vec与MeerKAT共同为生物声学研究树立了新的基准,使科研人员能够在地面真实信息稀缺的条件下,高效分析大规模音频数据,推动该领域的深入发展。