HyperAI초신경

Jeff Dean은 Google의 새로운 연구를 좋아합니다. 고래 생물음향 모델을 통해 8가지 유형의 고래를 식별할 수 있습니다.

特色图像

고래 소리 식별은 해양 생태계를 보호하는 데 매우 중요합니다. 과학자들은 고래의 소리를 분석하여 고래 종, 이동 경로, 번식 습관, 사회 구조를 이해하고 이를 통해 더욱 효과적인 보호 정책을 수립할 수 있습니다.

하지만 고래 소리를 인식하는 것은 쉬운 일이 아니다.첫째, 전 세계적으로 알려진 고래 종은 94종이 넘으며, 음향 주파수 범위가 매우 넓어 푸른고래의 10Hz만큼 낮은 음파부터 이빨고래의 120kHz만큼 높은 주파수까지 이릅니다. 둘째, 같은 종류의 고래에 대한 기록조차도 장소와 시간에 따라 상당히 달라질 수 있어 모델 개발을 더욱 복잡하게 만듭니다. 마지막으로, 연구자들은 일부 희귀 고래의 음향 특성에 대한 지식이 매우 제한적이어서 다양한 고래 종의 소리를 정확하게 구별할 수 없습니다.

이 문제를 해결하기 위해 Google 연구팀은 새로운 고래 생물음향 모델을 개발했습니다. 이 모델은 현재 알려진 고래 종 94종 중에서 8종을 식별할 수 있습니다.여기에는 혹등고래, 범고래, 흰긴수염고래, 긴수염고래, 밍크고래, 브라이드고래, 북대서양 긴수염고래, 북태평양 긴수염고래가 포함됩니다. 연구진은 또한 이 모델을 Biotwang으로 확장하여 20만 시간 이상의 수중 녹음 데이터에 레이블을 지정하는 데 사용했습니다.

관련 연구는 "휘파람, 노래, 윙윙거리는 소리, 그리고 생물학적 울림: AI를 이용한 고래 발성 인식"이라는 제목으로 구글 리서치 공식 웹사이트에 게재되었습니다.
연구 하이라이트:

* 2종에 대한 다중 호출을 포함하여 94종 고래의 8가지 다른 종을 식별합니다.

* 최근 브라이드 고래의 울음소리로 확인된 바이오트왕 소리 포함

* 모델은 TensorFlow SavedModel API를 통해 개별적으로 호출될 수 있습니다.

서류 주소:

https://research.google/blog/whistles-songs-boings-and-biotwangs-recognizing-whale-vocalizations-with-ai

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.

https://github.com/hyperai/awesome-ai4s

데이터 세트: 약 94종의 고래 종 중 8종을 포함하는 4개의 새로운 고래 울음소리 데이터 세트를 생성합니다.

연구진은 기존의 고래 울음소리 인식 데이터를 바탕으로 새로운 고래 울음소리 데이터 세트 4개를 구축했습니다.여기에는 밍크고래의 "보잉" 울음소리, 북태평양 긴수염고래의 "업콜"과 "총소리" 울음소리, 그리고 흰긴수염고래와 참고래의 울음소리가 포함됩니다.

밍크고래의 "쿵" 소리

수십 년 전에 녹음된 신비로운 바이오트왕 소리는 어떤 특정 고래 종에 의해 나는 소리라는 것이 확인된 적이 없습니다.최근까지 미국 해양대기청(NOAA)의 새로운 연구에 따르면 이 소리는 브라이드고래가 내는 소리라고 지적했습니다.

밍크고래의 울음소리는 브라이드 고래의 울음소리보다 훨씬 더 오래전인 1950년대 잠수함 녹음에서 기록되었습니다. 2005년이 되어서야 NOAA 과학자들은 이 특정 소리가 밍크고래의 소리라고 밝혔습니다.

연구자들이 처음에 태평양 제도 수산 과학 센터(PIFSC)에서 입수한 라벨 세트에는 "보잉"이라고 알려진 이 소리가 포함되어 있지 않았습니다. 따라서 구글 연구원들이 이 데이터를 초기 모델 훈련에 사용했을 때, 모델은 이 소리를 잘못된 패턴으로 식별했습니다. 연구자들은 새로 발견된 소리에 대한 심층 연구를 수행했습니다. 궁극적으로 밍크고래의 소리를 정확하게 식별하여 다양한 종 식별 모델에 통합할 수 있을 것입니다.

밍크고래의 "보잉" 스펙트럼

북태평양 긴수염고래의 "상승 신호"와 "총성" 소리

북태평양 긴수염고래(NPRW)는 주로 북태평양 해역에 분포하는 매우 멸종 위기에 처한 고래 종입니다. 북태평양 긴수염고래는 한때 고래잡이로 인해 거의 멸종될 뻔했으며, 현재는 매우 적은 수의 개체만 남아 있습니다. 동부에 서식하는 긴수염고래 개체 수는 30~35마리에 불과한 것으로 추정됩니다.

동시에, 북태평양 긴수염고래 개체군은 "노래"를 부를 수 있는 유일한 긴수염고래 개체군으로 알려져 있습니다. "오르는 소리"는 긴수염고래, 활머리고래, 심지어 혹등고래에게서 나올 수 있지만, 북태평양 긴수염고래는 특유의 "총소리" 울음소리로 구별할 수 있습니다.

북태평양 긴수염고래의 '상향 호출' 스펙트럼
북태평양 긴수염고래의 "총격" 스펙트럼

푸른 고래와 긴수염고래 소리 태그

연구진은 혹등고래 모델을 개발하기 위해 태평양 제도 수산 과학 센터(PIFSC)와 처음 협업하기 전에 PIFSC가 이미 일부 데이터에 주석을 달아 푸른고래와 긴수염고래의 존재를 확인했다고 밝혔습니다. 이 고래들은 하와이 제도 주변에만 서식하는 것이 아니라, 전 세계 해양의 넓은 수역에도 널리 분포되어 있습니다.

이번 연구에서 연구진은 몬터레이 만 수족관 연구소(MBARI)가 관리하는 MARS 수중 청음기가 수집한 데이터를 구체적으로 살펴보았습니다. 그러나 MARS 데이터에는 기준 레이블이 없기 때문에 연구진은 PIFSC 데이터를 기반으로 파란고래와 긴수염고래를 식별하기 위한 모델을 특별히 훈련시켰고, 이를 사용하여 MBARI 데이터에 대한 가상 레이블을 생성했습니다.

중부 태평양의 푸른 고래 울음소리 스펙트럼
긴수염고래 울음소리의 스펙트럼

모델 아키텍처: 원시 오디오를 기반으로 스펙트로그램 분류

연구자들은 이 모델이 먼저 원시 오디오 데이터를 스펙트로그램 이미지 데이터로 변환하여 5초 분량의 사운드 클립을 표현한다는 점에 주목했습니다.모델의 프런트엔드는 멜 스케일 주파수 축과 로그 진폭 압축을 사용하고, 각 주파수 대역의 5%-ile 로그 진폭을 빼서 정규화합니다. 마지막으로, 이 모델은 이미지를 12가지 고래 종 또는 발성 유형으로 분류했습니다.

또한, TensorFlow의 SavedModel API를 통해 모델을 독립적으로 호출할 수 있습니다.즉, 이 모델을 사용하면 모델이 훈련될 때 포함된 종과 소리를 식별할 수 있을 뿐만 아니라, 이 모델의 사전 훈련된 임베딩을 사용하여 새로운 소리나 고래 종을 검색하고 식별하고 해당 분류기를 빠르게 구축할 수도 있습니다.

모델 테스트: 모델은 각 카테고리에 대해 좋은 판별 성능을 보입니다.

장기적인 수동 음향 모니터링에는 종을 정확하게 분류하는 것뿐만 아니라 배경 및 비동물 소리 사건을 정확하게 배제하는 것도 필요합니다. 따라서 연구자들은 긍정적인 라벨에만 훈련을 국한하지 않고, 다른 파트너 기관에서 제공한 녹음에서 부정적인 라벨과 배경 데이터도 광범위하게 추출했습니다.

모델의 검증을 위해 연구진은 사용 가능한 훈련 데이터에서 20%의 균일한 하위 집합을 무작위로 선택하여 테스트 세트로 사용했습니다.아래 그림은 다양한 종의 테스트 세트에 대한 모델의 성능을 설명합니다.

* AUC(ROC) 값이 높으면 모델이 긍정적 레이블과 부정적 레이블을 잘 구분할 수 있음을 나타냅니다.

* 민감도 @ 0.99는 99%의 실제 음성 레이블을 제외한 임계값 이상을 기록한 실제 양성 레이블 분류 결과의 일부를 나타냅니다.

* 정밀도 @ 0.5는 합리적인 민감도 임계값(진정한 양성 라벨 분류 결과의 50% 미만)에서 올바르게 예측된 종의 비율을 나타냅니다.

다양한 종의 테스트 세트에 대한 모델 성능

전반적으로 이 모델은 혹등고래, 범고래, 흰긴수염고래, 긴수염고래, 밍크고래, 브라이드고래, 북대서양 긴수염고래(NARW), 북태평양 긴수염고래(NPRW)를 포함한 8가지 고래 종을 정확하게 식별할 수 있습니다.민케고래, 북태평양고래, 북대서양고래, 브라이드고래 종류의 경우 세 가지 지표 값이 모두 1에 가까워 거짓 양성과 거짓 음성 라벨 간의 상충이 적고 모델 성능이 우수함을 보여줍니다. 범고래의 반향정위 능력과 휘파람 소리의 경우, 그 균형은 훨씬 더 두드러진다.

AI와 머신러닝 기술을 결합하여 해양생물 보호에 기여

구글 리서치의 최신 연구 결과는 종간 의사소통을 이해하고 심지어 이를 달성하는 데 매우 중요한 의미를 갖습니다. 구글 딥마인드와 구글 리서치의 수석 과학자 제프 딘은 소셜 미디어를 통해 "인간 언어 LLM은 시대에 뒤떨어졌습니다. 우리 모두 이 획기적인 발전에 기대를 걸어야 합니다!"라고 말했습니다.

데이터 과학에 집중하는 한 고위 관리자는 이렇게 말했습니다. "드디어 해저 고래들의 수다를 알아들을 수 있게 됐네요! 그들이 최신 크릴 동향에 대해 이야기하는지, 아니면 최고의 해저 핫스팟에 대해 논쟁하는지 정말 기대되네요!"

일부 네티즌들은 또한 "이것은 지구상의 다른 종과 소통할 수 있게 된 중요한 단계이며, 중요한 이정표입니다!"라고 믿고 있습니다.

구글은 과학자들이 고래의 의사소통 방식을 더 잘 이해할 수 있도록 돕기 위해 2018년부터 AI와 머신러닝 기술을 사용하여 고래 소리를 분석하고 식별하는 방법을 연구하기 시작했습니다. 이를 통해 멸종 위기에 처한 해양 종을 더 많이 보호하고 건강한 해양 생태계를 유지한다는 아름다운 비전을 실현했습니다.

2018년 Google Research는 미국 해양대기청(NOAA)의 태평양 섬 어업 과학 센터(PIFSC)와 협력하여혹등고래 울음소리를 감지하기 위해 합성곱 신경망 기반 분류 모델이 개발되어 고래 음파 분류 연구가 공식적으로 시작되었습니다.

이 모델은 NOAA가 수집한 187,000시간 이상의 오디오에서 혹등고래 울음소리를 식별하는 데 사용되었으며, 혹등고래 노래의 시공간적 패턴을 확인하고 혹등고래 소리가 이전에 관찰되지 않았던 킹맨 리프에서 새로운 장소를 발견했습니다.
서류 주소:
https://research.google/blog/acoustic-detection-of-humpback-whales-using-a-convolutional-neural-network/

2019년에 연구진은 Google Creative Lab과 협력하여 이 모델을 기반으로 한 "패턴 라디오"라는 대화형 시각화 도구를 출시했습니다.하와이 근처에서 수집된 고래에 대한 1년치의 수중 오디오 데이터를 보여줍니다.

이 모델은 오디오에 주석을 달았고, 일부 데이터에는 전문가의 추가적인 통찰력이 포함되어 연구자들이 고래의 음성 패턴, 특히 혹등고래의 노래를 더 정확하게 분석할 수 있게 되었습니다.
패턴 라디오 도구 주소:
https://patternradio.withgoogle.com/

사실, 구글 외에도 CETI도 오랫동안 고래 울음소리에 대한 연구에 참여해 왔습니다.올해 5월, CETI는 MIT 연구진과 협업하여 머신 러닝을 사용하여 향유고래의 녹음을 분석했습니다. 이를 통해 향유고래가 내는 소리에 구조가 있고 향유고래 발음 알파벳이 구분되어 있다는 것을 확인했으며, 이는 인간의 언어 표현 체계와 매우 유사한 것으로 밝혀졌습니다.

링크를 클릭하면 자세한 보고서를 볼 수 있습니다: MIT/CETI 팀이 머신 러닝 기술을 사용하여 향유고래 발음 알파벳을 분리했습니다! 인간의 언어 체계와 매우 유사하며, 정보 전달 능력이 더 뛰어납니다!

연구가 더욱 심화됨에 따라 종간 의사소통의 새로운 방식이 현실이 될 수도 있습니다. 이러한 전망은 해양 생물에 대한 우리의 이해를 바꿀 뿐만 아니라 인간과 자연의 관계를 재정의하여 인간과 동물이 조화롭게 공존하는 새로운 시대를 열어갈 것입니다.