animal2vec et MeerKAT : un transformer auto-supervisé pour les entrées audio brutes d'événements rares et un grand jeu de données de référence en bioacoustique

La recherche bioacoustique, essentielle à la compréhension du comportement animal, de la conservation et de l’écologie, fait face à un défi majeur : l’analyse de grands ensembles de données où les vocalisations animales sont rares. Bien que les techniques d’apprentissage profond deviennent désormais la norme, leur adaptation à la bioacoustique reste difficile. Nous proposons ici animal2vec, un modèle transformer à grande échelle interprétable, accompagné d’un schéma d’entraînement auto-supervisé spécifiquement conçu pour les données bioacoustiques rares et déséquilibrées. Ce modèle apprend à partir d’audio non étiquetés, puis affine sa compréhension grâce à des données étiquetées. En outre, nous introduisons et mettons publiquement à disposition MeerKAT : Meerkat Kalahari Audio Transcripts, un ensemble de données de vocalisations de suricates (Suricata suricatta) doté d’annotations au millième de seconde, actuellement le plus grand ensemble de données étiquetées sur les mammifères terrestres non humains. Notre modèle surpasse les méthodes existantes sur MeerKAT ainsi que sur le jeu de données public NIPS4Bplus dédié aux chants d’oiseaux. De plus, animal2vec se montre performant même avec un nombre limité de données étiquetées (apprentissage en peu d’exemples). animal2vec et MeerKAT établissent une nouvelle référence pour la recherche bioacoustique, permettant aux scientifiques d’analyser de grandes quantités de données même en présence d’informations de vérité terrain rares.