Perch 2.0 : La leçon du bécassine pour la bioacoustique

Perch est un modèle pré-entraîné performant dédié à la bioacoustique. Entraîné de manière supervisée, il fournit à la fois des scores de classification immédiatement utilisables pour des milliers d'espèces émettant des vocalisations, ainsi que des représentations (embeddings) de haute qualité adaptées au transfert d'apprentissage. Dans cette nouvelle version, Perch 2.0, nous étendons l'entraînement non plus uniquement aux espèces aviaires, mais à un vaste jeu de données multi-taxonomiques. Le modèle est entraîné par auto-distillation, en combinant un classifieur fondé sur l'apprentissage de prototypes et une nouvelle méthode de criticité de prédiction des sources. Perch 2.0 atteint des performances de pointe sur les benchmarks BirdSet et BEANS. Il surpasse également les modèles spécialisés en milieu marin sur des tâches de transfert d'apprentissage en milieu marin, malgré une très faible quantité de données marines utilisées lors de son entraînement. Nous proposons des hypothèses visant à expliquer pourquoi la classification fine des espèces constitue une tâche particulièrement robuste pour l'entraînement préalable en bioacoustique.