15日前
animal2vec および MeerKAT:稀少イベントの生音声入力向け自己教師付きTransformerと、生物音響学向けの大規模リファレンスデータセット
Julian C. Schäfer-Zimmermann, Vlad Demartsev, Baptiste Averly, Kiran Dhanjal-Adams, Mathieu Duteil, Gabriella Gall, Marius Faiß, Lily Johnson-Ulrich, Dan Stowell, Marta B. Manser, Marie A. Roch, Ariana Strandburg-Peshkin

要約
動物の行動、保護、生態学を理解する上で不可欠な生音響学(bioacoustics)は、動物の発声が極めて稀である膨大なデータセットの解析という大きな課題に直面している。深層学習技術は既に標準的な手法として普及しつつあるが、それらを生音響学に適用することは依然として困難である。本研究では、解釈可能性を備えた大規模トランスフォーマー型モデル「animal2vec」と、スパースかつ非平衡な生音響データに特化した自己教師学習(self-supervised learning)スキームを提案する。このモデルはラベルのない音声データから学習し、その後、ラベル付きデータを用いてその理解を精緻化する。さらに、マーラービーバー(Suricata suricatta)の発声データをミリ秒単位でアノテーションした、現在までに非人間の陸上哺乳類において最大規模のラベル付きデータセット「MeerKAT: Meerkat Kalahari Audio Transcripts」を公開する。本モデルは、MeerKATおよび公開されているNIPS4Bplus鳥声データセットにおいて、既存手法を上回る性能を示した。さらに、ラベル付きデータが限られた状況(少数ラベル学習/few-shot learning)でも良好な性能を発揮する。animal2vecとMeerKATは、生音響学研究の新たな基準点を提供し、地面真実情報(ground truth)が限られる状況下でも、大規模なデータ解析を可能にする。