14 天前
Perch 2.0:对生物声学的鹬鸟启示
Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, Lauren Harrell, Andrea Burns, Tom Denton

摘要
Perch 是一种高效且预训练的生物声学模型。该模型采用监督学习方式进行训练,能够直接提供数千种发声物种的分类得分,同时生成适用于迁移学习的高质量嵌入表示。在本次发布的 Perch 2.0 版本中,我们将其训练范围从原先仅限鸟类物种扩展至大规模多类群(multi-taxa)数据集。模型通过自蒸馏(self-distillation)方法进行训练,采用基于原型学习(prototype-learning)的分类器以及一种新的声源预测(source-prediction)训练准则。Perch 2.0 在 BirdSet 和 BEANS 基准测试中均达到了当前最优性能。即使在海洋训练数据几乎为零的情况下,其在海洋生物声学迁移学习任务中的表现仍优于专门针对海洋环境设计的模型。我们进一步提出若干假设,以解释为何细粒度物种分类任务在生物声学领域中特别适合作为预训练任务。