14日前
Perch 2.0:バイオ音響学におけるビタキの教訓
Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, Lauren Harrell, Andrea Burns, Tom Denton

要約
Perchは、バイオ音響学向けに高性能な事前学習モデルである。このモデルは教師あり学習の形で学習され、数千種にわたる発声種に対する即時分類スコアの提供に加え、転移学習に向けた強力な埋め込み表現を提供する。今回の新バージョンであるPerch 2.0では、従来の鳥類に限定されていた学習データから、大規模な多分類群データセットへと拡張した。本モデルは、プロトタイプ学習型分類器を用いた自己蒸留(self-distillation)および新たな音源予測学習基準(source-prediction training criterion)を用いて学習されている。Perch 2.0は、BirdSetおよびBEANSベンチマークにおいて最先端の性能を達成した。また、海洋データをほぼ含まないにもかかわらず、専用の海洋モデルを上回る性能を、海洋音響の転移学習タスクにおいて示した。本研究では、細粒度の種分類がバイオ音響学における特に堅牢な事前学習タスクである理由についての仮説を提示する。