Google DeepMind가 15,000여 종을 포괄하는 Perch 2.0을 출시하여 생물음향 분류 및 감지 분야에서 새로운 최첨단 기술을 선보였습니다.

생물음향학은 생물학과 생태학을 연결하는 중요한 도구로서 생물다양성 보존 및 모니터링에 핵심적인 역할을 합니다. 초기 연구는 템플릿 매칭과 같은 전통적인 신호 처리 방식에 의존했는데, 이는 복잡한 자연 음향 환경과 대규모 데이터 환경에서 비효율적이고 정확성이 부족하여 점차 한계를 드러냈습니다.
최근 몇 년간 인공지능(AI) 기술의 폭발적인 성장은 딥러닝을 비롯한 여러 기법들이 기존 접근법을 대체하는 데 기여하며, 생물음향 현상의 탐지 및 분류를 위한 핵심 도구로 자리 잡았습니다. 예를 들어, 대규모 레이블링된 조류 음향 데이터로 학습된 BirdNET 모델은 조류 성문 인식에서 탁월한 성능을 보였습니다. 다양한 종의 울음소리를 정확하게 구분할 뿐만 아니라 개체 식별도 어느 정도 가능하게 합니다. 또한, Perch 1.0과 같은 모델은 지속적인 최적화와 반복을 통해 생물음향 분야에서 풍부한 성과를 축적하여 생물다양성 모니터링 및 보존에 대한 탄탄한 기술 지원을 제공하고 있습니다.
며칠 전,Google DeepMind와 Google Research가 공동으로 출시한 Perch 2.0은생물음향 연구를 한 단계 끌어올린 Perch 2.0은 종 분류를 핵심 훈련 과제로 삼았습니다. 비조류 집단의 훈련 데이터를 더 많이 활용할 뿐만 아니라, 새로운 데이터 증강 전략과 훈련 목표도 도입했습니다.이 모델은 두 가지 권위 있는 생물음향 벤치마크인 BirdSET과 BEANS에서 현재의 SOTA를 새롭게 했습니다.이는 강력한 성능 잠재력과 광범위한 적용 가능성을 보여줍니다.
관련 연구 결과는 "Perch 2.0: The Bittern Lesson for Bioacoustics"라는 제목으로 arXiv에 사전 인쇄본으로 출판되었습니다.

서류 주소:
https://arxiv.org/abs/2508.04665
공식 계정을 팔로우하고 "Bioacoustics"라고 답글을 달면 전체 PDF를 받을 수 있습니다.
데이터 세트: 훈련 데이터 구축 및 평가 벤치마크
이 연구에서는 모델 훈련을 위해 Xeno-Canto, iNaturalist, Tierstimmenarchiv, FSD50K의 4개 레이블이 지정된 오디오 데이터 세트를 통합했습니다.이들은 함께 모델 학습을 위한 기본 데이터 지원을 형성합니다. 아래 표에서 볼 수 있듯이, Xeno-Canto와 iNaturalist는 대규모 시민 과학 저장소입니다. 전자는 공개 API를 통해 접근하고, 후자는 GBIF 플랫폼에서 연구 등급으로 분류된 오디오에서 추출됩니다. 두 저장소 모두 조류 및 기타 생물의 음향 녹음을 다수 보유하고 있습니다. 베를린 자연사 박물관의 동물 소리 아카이브인 Tierstimmenarchiv 또한 생물음향학에 중점을 둡니다. 마지막으로, FSD50K는 다양한 비조류 소리를 통해 이를 보완합니다.
이 4가지 범주의 데이터는 총 14,795개의 범주를 포함합니다.이 중 14,597건은 종이었고, 나머지 198건은 비종 소리 사건이었습니다. 이처럼 풍부한 범주 범위는 생물음향 신호의 심층 학습을 보장할 뿐만 아니라, 조류가 아닌 소리 데이터를 포함하여 모델의 적용 가능성을 확장합니다. 그러나 처음 세 가지 데이터세트는 서로 다른 종 분류 체계를 사용했기 때문에, 연구팀은 범주 이름을 수동으로 매핑하고 통합했으며, 선택된 스펙트로그램 매개변수로 표현할 수 없는 박쥐 녹음을 제거하여 데이터 일관성과 적용성을 확보했습니다.

다양한 데이터 소스의 기록 기간이 매우 다양하다는 점(1초 미만에서 1시간 이상까지, 대부분 5~150초)과 5초 클립을 입력으로 고정한 모델을 고려하면,연구팀은 두 가지 창문 선택 전략을 설계했습니다.무작위 윈도우 전략은 녹음을 선택할 때 5초를 무작위로 가로채는 것입니다. 여기에는 대상 종이 소리를 내지 않는 구간이 포함되어 레이블 잡음이 발생할 수 있지만, 일반적으로 허용 가능한 범위 내에 있습니다. 에너지 피크 전략은 Perch 1.0의 개념을 따르며, 웨이블릿 변환을 사용하여 녹음에서 가장 강한 에너지를 가진 6초 영역을 선택합니다. 그런 다음, "고에너지 영역이 대상 종의 소리를 포함할 가능성이 더 높다"는 가정에 기반하여 표본 타당성을 높이기 위해 이 영역에서 5초를 무작위로 선택합니다.이 방법은 BirdNET과 같은 모델의 검출기 설계 논리와 일치하며, 효과적인 음향 신호를 보다 정확하게 포착할 수 있습니다.
연구팀은 복잡한 음향 환경에 대한 모델의 적응성을 더욱 개선하기 위해 mixup의 데이터 증강 변형을 채택했습니다.여러 오디오 창을 혼합하여 합성 신호를 생성합니다.먼저, 베타-이항 분포를 이용하여 혼합 오디오 신호의 개수를 결정한 후, 대칭 디리클레 분포를 이용하여 가중치를 샘플링합니다. 선택된 여러 신호의 가중치를 합산하고 이득을 정규화합니다.
원래의 믹스업 방식과 달리, 이 방법은 원핫 벡터가 아닌 멀티핫 타겟 벡터의 가중 평균을 사용하여 윈도우 내의 모든 소리(크기에 관계없이)를 높은 신뢰도로 식별할 수 있도록 합니다. 관련 매개변수를 하이퍼파라미터로 조정하면 모델의 중복되는 소리를 구분하는 능력을 향상시키고 분류 정확도를 향상시킬 수 있습니다.
모델 평가는 BirdSet과 BEANS라는 두 가지 권위 있는 벤치마크를 기반으로 합니다. BirdSet은 미국 본토, 하와이, 페루, 콜롬비아에서 수집된 완전히 주석이 달린 6개의 사운드스케이프 데이터셋을 포함합니다. 평가 과정에서 미세 조정은 수행되지 않으며, 프로토타입 학습 분류기의 출력이 그대로 사용됩니다. BEANS는 12개의 교차 범주 테스트 작업(조류, 육상 및 해양 포유류, 무라, 곤충 포함)을 다룹니다. 선형 및 프로토타입 프로브를 학습하는 데는 훈련 세트만 사용되며, 임베딩 네트워크는 조정되지 않습니다.
Perch 2.0: 고성능 생체음향 사전 훈련 모델
Perch 2.0 모델 아키텍처는 프런트엔드, 임베딩 모델, 출력 헤드 세트로 구성됩니다.이러한 부분들이 함께 작동하여 오디오 신호에서 종 식별까지의 전체 과정을 달성합니다.
안에,프런트엔드는 모델이 처리할 수 있는 피처 형태로 원시 오디오를 변환하는 역할을 합니다.32kHz로 샘플링된 모노 오디오를 수신하고, 5초 세그먼트(160,000개의 샘플링 포인트 포함)에 대해 20ms 윈도우 길이와 10ms 점프 길이로 처리하여 프레임당 500개 프레임과 128개의 멜 밴드를 포함하는 로그-멜 스펙트로그램을 생성하며, 이는 60Hz~16kHz의 주파수 범위를 포괄하여 후속 분석을 위한 기본 기능을 제공합니다.
임베딩 네트워크는 EfficientNet-B3 아키텍처를 채택합니다.이는 1억 2천만 개의 매개변수를 갖는 합성곱 잔차 네트워크로, 깊이별 분리형 합성곱 설계를 사용하여 매개변수 효율성을 극대화합니다. 이전 버전의 Perch에서 사용된 7천 8백만 개의 매개변수를 갖는 EfficientNet-B1과 비교했을 때, 훈련 데이터의 증가에 맞춰 더 큰 크기를 가집니다.
임베딩 네트워크를 통해 처리하면 (5, 3, 1536) 형태의 공간 임베딩이 생성됩니다(차원은 각각 시간, 빈도, 특징 채널에 해당). 공간 차원의 평균을 구하면 1536차원의 글로벌 임베딩을 얻을 수 있으며, 이는 후속 분류의 핵심 특징이 됩니다.
출력 헤드는 특정 예측 및 학습 작업을 담당합니다.이 모델은 세 부분으로 구성됩니다. 선형 분류기는 전역 임베딩을 14,795차원 범주 공간에 투영하고, 학습을 통해 서로 다른 종의 임베딩을 선형적으로 분리할 수 있도록 하여 새로운 작업에 적응할 때 선형 탐지 효과를 향상시킵니다. 프로토타입 학습 분류기는 공간 임베딩을 입력으로 받아 각 범주에 대해 4개의 프로토타입을 학습하고, 활성화 값이 가장 큰 프로토타입을 예측에 사용합니다. 이 설계는 생체음향 분야의 AudioProtoPNet에서 파생되었습니다. 소스 예측 헤드는 전역 임베딩을 기반으로 오디오 클립의 원본 녹음 소스를 예측하는 선형 분류기입니다. 학습 세트에는 150만 개 이상의 소스 녹음이 포함되어 있으므로, 512번째 순위의 저순위 투영을 통해 효율적인 계산을 달성하여 자기 지도 소스 예측 손실 학습에 활용합니다.

모델 학습은 세 가지 독립적인 목표를 통해 종단 간에 최적화됩니다.
* 종 분류를 위한 교차 엔트로피는 선형 분류기에 소프트맥스 활성화와 교차 엔트로피 손실을 사용하여 대상 범주에 균일한 가중치를 할당합니다.
자체 증류 메커니즘에서 프로토타입 학습 분류기는 "선생님" 역할을 하며, 그 예측은 직교 손실을 통해 프로토타입 차이를 최대화하면서 "학생" 선형 분류기를 안내하고, 그래디언트는 임베딩 네트워크로 역전파되지 않습니다.
* 소스 예측은 자체 감독 목표로 사용되며, 원본 녹음을 훈련을 위한 독립적인 범주로 처리하여 모델이 중요한 특징을 포착하도록 합니다.
훈련은 두 단계로 나뉩니다.첫 번째 단계는 프로토타입 학습 분류기(자체 증류 없음, 최대 30만 단계)를 훈련하는 데 중점을 두었습니다. 두 번째 단계에서는 자체 증류(최대 40만 단계)가 가능해졌으며, 둘 다 Adam 최적화 도구를 사용했습니다.
하이퍼파라미터 선택은 Vizier 알고리즘에 의존합니다.첫 번째 단계에서는 학습률, 탈락률 등을 탐색하고, 두 번의 선별 과정을 거쳐 최적 모델을 결정합니다. 두 번째 단계에서는 자가 증류 손실 가중치를 증가시키고 탐색을 계속합니다. 두 가지 윈도우 샘플링 방법이 전체 과정에서 사용됩니다.
결과는 첫 번째 단계에서는 2~5개의 신호를 혼합하는 것을 선호하며, 소스 예측 손실 가중치는 0.1~0.9인 반면, 자가 증류 단계에서는 학습률이 낮고, 혼합 횟수가 적으며, 자가 증류 손실에 1.5~4.5의 높은 가중치를 부여하는 경향이 있음을 보여줍니다. 이러한 매개변수는 모델 성능을 뒷받침합니다.
Perch 2.0의 일반화 능력 평가: 기준 성능 및 실용적 가치
Perch 2.0 평가는 일반화 능력에 중점을 두고, 훈련 녹음과 상당히 다른 조류 음경(soundscape) 및 비종 식별 과제(예: 호출 유형 식별)에서의 성능과 박쥐 및 해양 포유류와 같은 비조류 집단으로의 전이 능력을 검토합니다. 실무자들이 종종 소량의 데이터 또는 레이블이 지정되지 않은 데이터를 처리해야 한다는 점을 고려할 때,평가의 핵심 원칙은 "동결된 임베디드 네트워크"의 효과를 검증하는 것입니다.즉, 한 번에 특징을 추출함으로써 클러스터링이나 소규모 샘플 학습과 같은 새로운 작업을 신속하게 적용할 수 있습니다.
모델 선택 단계에서는 세 가지 측면에서 실용성을 검증합니다.
* ROC-AUC를 사용하여 완전히 주석이 달린 조류 데이터 세트에 대한 즉시 사용 가능한 종 예측 기능을 평가하는 사전 훈련된 분류기 성능
* 코사인 거리를 사용하여 클러스터링과 검색 성능을 측정하는 단일 샘플 검색
* 선형 마이그레이션, 적응성을 테스트하기 위해 소규모 샘플 시나리오를 시뮬레이션합니다.
이러한 작업의 점수는 기하 평균으로 계산되며, 19개 하위 데이터 세트의 최종 결과는 모델의 실제 사용성을 반영합니다.
BirdSet과 BEANS의 두 가지 벤치마크를 기반으로 한 본 연구의 평가 결과는 다음 표와 같습니다.Perch 2.0은 많은 지표에서 뛰어난 성과를 보이고 있으며, 특히 현재 최고 수준인 ROC-AUC에서 뛰어난 성과를 보이고 있습니다.그리고 미세 조정이 필요 없습니다. 랜덤 윈도우와 에너지 피크 윈도우 학습 전략은 비슷한 성과를 보이는데, 아마도 자체 증류로 인해 라벨 노이즈의 영향이 완화되기 때문일 것입니다.

전반적으로 Perch 2.0은 지도 학습을 기반으로 하며 생체음향 특성과 밀접한 관련이 있습니다. Perch 2.0의 획기적인 발전은 다음과 같습니다.고품질 전이 학습에는 초대형 모델이 필요하지 않습니다. 데이터 증강 및 보조 목표와 결합된 미세 조정된 지도 학습 모델이 좋은 성과를 낼 수 있습니다.고정 임베딩 설계(반복적인 미세 조정 필요성 제거)는 대규모 데이터 처리 비용을 절감하고 민첩한 모델링을 가능하게 합니다. 이 분야의 향후 방향에는 현실적인 평가 벤치마크 구축, 메타데이터를 활용한 새로운 과제 개발, 그리고 반지도 학습(semi-supervised learning) 탐색이 포함될 것입니다.
생체음향학과 인공지능의 교차점
생체음향학과 인공지능이 만나는 지점에서 교차 범주 전이 학습, 자기 감독 타겟 설계, 고정 임베딩 네트워크 최적화와 같은 연구 방향이 전 세계 학계와 기업 커뮤니티에서 광범위한 탐색을 촉발했습니다.
케임브리지 대학 팀에서 개발한 코사인 거리 가상 적대 학습(CD-VAT) 기술은 일관성 정규화를 통해 음향 임베딩의 구별 가능성을 향상시킵니다.대규모 스피커 검증 작업에서 32.51%TP3T의 동일한 오류율 개선을 회복합니다.음성 인식 분야에서 반지도 학습을 위한 새로운 패러다임을 제공합니다.
MIT와 CETI가 향유고래 음성 연구에 협력합니다.머신 러닝을 통해 리듬, 박자, 트레몰로, 장식음으로 구성된 "사운드 알파벳"이 분리됩니다.이들의 의사소통 체계는 예상했던 것보다 훨씬 더 복잡한 것으로 드러났습니다. 동카리브해 향유고래 부족만 해도 적어도 143가지의 구별 가능한 발성 조합을 가지고 있으며, 이들의 정보 전달 능력은 인간 언어의 기본 구조를 능가합니다.
ETH 취리히에서 개발한 광음향 이미징 기술은 미세캡슐에 산화철 나노입자를 넣어 음향 회절 한계를 돌파했습니다.심부 조직 미세혈관의 초고해상도 이미징을 달성합니다(최대 20마이크론의 해상도).이는 뇌 과학 및 종양 연구에서 다중 매개변수 동적 모니터링의 잠재력을 보여주었습니다.
동시에,오픈소스 프로젝트인 BirdNET은 전 세계적으로 1억 5천만 건의 녹음 자료를 축적했습니다.이 도구는 생태 모니터링의 벤치마크 도구로 자리 잡았습니다. 경량 버전인 BirdNET-Lite는 Raspberry Pi와 같은 엣지 디바이스에서 실시간으로 실행되어 6,000종 이상의 조류 식별을 지원하고 생물다양성 연구를 위한 저비용 솔루션을 제공합니다.
일본의 하일러블(Hylable) 회사가 히비야 공원에 배치한 AI 새 노래 인식 시스템은 다중 마이크 배열과 DNN을 결합한 것입니다.95% 이상의 정확도로 음원 위치와 종 식별을 동시에 출력합니다.그 기술적 틀은 도시 녹지 공간 생태학적 평가와 장애인 편의시설 구축 분야로 확장되었습니다.
주목할 점은 다음과 같습니다.Google DeepMind의 Project Zoonomia는 240종의 포유류에서 얻은 유전체 및 음향 데이터를 통합하여 종 간 음향 공통점의 진화적 메커니즘을 탐구하고 있습니다.이 연구는 개가 즐겁게 짖는 소리(3차-5차 고조파 에너지 비율 0.78±0.12)의 고조파 에너지 분포가 돌고래의 사회적 휘파람 소리(0.81±0.09)와 매우 유사함을 발견했습니다. 이러한 분자생물학적 상관관계는 종간 모델 이동의 기반을 제공할 뿐만 아니라, "생물학적으로 영감을 받은 AI"를 위한 새로운 모델링 경로에 영감을 불어넣습니다. 즉, 진화적 트리 정보를 내장 네트워크 학습에 통합하여 기존 생물음향 모델의 한계를 극복하는 것입니다.
이러한 탐구는 생체음향학과 인공지능의 결합에 새로운 차원을 열어가고 있습니다. 학문적 연구의 깊이와 산업적 응용의 폭이 만나면서, 한때 열대우림과 심해 산호초 속에 숨겨져 있던 생명 신호가 더욱 명확하게 포착되고 해석되어, 궁극적으로 멸종 위기에 처한 종을 보호하기 위한 행동 지침과 도시와 자연의 조화로운 공존을 위한 지능형 솔루션으로 탈바꿈하게 됩니다.
참조 링크:
1.https://mp.weixin.qq.com/s/ZWBg8zAQq0nSRapqDeETsQ
2.https://mp.weixin.qq.com/s/UdGi6iSW-j_kcAaSsGW3-A
3.https://mp.weixin.qq.com/s/57sXpOs7vRhmopPubXTSXQ
해당 QR 코드를 스캔하여 2023년부터 2024년까지 분야별 고품질 AI4S 논문과 심층 해석 보고서를 확인하세요⬇️
