MIT/CETI 팀이 머신러닝을 사용하여 향유고래 발음 알파벳을 분리했습니다! 인간의 언어 체계와 매우 유사하며, 정보 전달 능력이 더 뛰어납니다!

해양 생태학 연구에서 생물음향은 사람들이 해양 생물에 대한 정보를 얻는 중요한 방법입니다.이름에서 알 수 있듯이, 생물음향학은 주로 동물 소리의 생성, 전파, 수신을 연구합니다.기술의 발전으로 연구자들은 이제 동물의 소리를 해석하여 종, 성별, 개체 식별 또는 건강 상태를 파악할 수 있게 되었습니다.
그러나 전통적인 생물음향학에서는 개체군 모니터링을 수행할 때 현장 녹음을 처리하고 분석하는 데 많은 인력이 필요하므로 시간이 많이 걸리고 비용도 많이 듭니다. 음성 인식 분야의 AI 혁신은 이러한 과제에 대한 이상적인 해결책을 제공합니다. 머신 러닝은 자동화된 처리 및 자체 학습 기능 덕분에 생물음향 분야에서 큰 진전을 이루었습니다.
오늘날, 해양 생물의 소리에 대한 머신 러닝 분석은 성숙한 응용 분야에 도달했습니다. 모든 해양 생물 가운데 고래, 돌고래 등의 고래류는 복잡한 사회적, 협동적 행동 특성을 가지고 있는데, 이는 인간 사회와 매우 유사하여 연구 가치가 매우 높습니다.
그 중에서도 향유고래는 인간 사회의 언어 체계와 매우 유사한 언어 체계를 가지고 있어 연구의 초점이 되고 있습니다.
향유고래는 사회적인 포유류로서 가족 단위로 생활하며 복잡한 사회 구조를 가지고 있습니다.집단적 결정을 내릴 때, 그들은 대부분 끊임없이 "클릭" 소리를 내어 의사소통을 하는데, 이 소리는 10초 정도 지속되기도 하고 30분 정도 지속되기도 합니다. 이들의 의사소통 체계는 단순해 보이지만, 실제로는 일련의 복잡하고 조화로운 행동을 이룰 수 있습니다. 이 둘 사이의 대조는 연구자들이 풀고자 하는 "퍼즐"이 되었습니다. 많은 이전 연구에서 향유고래 발성의 복잡성이 입증되었지만, 코다의 구체적인 특성과 구조는 아직 알려지지 않았습니다.
이를 위해 MIT의 프라튜샤 샤르마와 CETI의 연구자들은 머신 러닝을 사용하여 향유고래의 녹음을 분석했습니다.향유고래가 내는 소리는 다양한 특징이 결합되어 구조화되고 형성된다는 것이 확인되었습니다. 향유고래의 발음 알파벳도 머신러닝 기술을 통해 분리한 결과, 향유고래의 언어 표현 체계가 인간의 언어 표현 체계와 매우 유사하고 정보 전달 능력이 더 강한 것으로 나타났습니다.
관련 연구는 "향유고래 발성의 맥락적 및 조합적 구조"라는 제목으로 Nature Communications에 게재되었습니다.
연구 하이라이트:
* 이 연구에서는 가장 큰 향유고래 데이터베이스인 도미니카 향유고래 프로젝트(DSWP)의 데이터를 사용하여 동카리브해 향유고래 군집의 약 60종 향유고래의 코다 기록 8,719개를 분석하고 "향유고래 음성 알파벳"을 정의했습니다.
* 향유고래 언어는 결합적이므로 다양한 "클릭"과 리듬을 결합하고 조절하여 인간 언어와 매우 유사한 복잡한 발성을 생성할 수 있습니다.

서류 주소:
https://www.nature.com/articles/s41467-024-47221-8
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 대량의 데이터와 긴 시간 범위
이 연구에 사용된 데이터 세트는 현재 가장 큰 향유고래 데이터 저장소인 도미니카 향유고래 프로젝트(DSWP)에서 나왔습니다.연구진은 동카리브해 향유고래 계통 1(EC-1)에 속하는 60마리의 다른 향유고래의 녹음 데이터를 분석에 사용했는데, 여기에는 총 8,719개의 흔적 데이터가 포함되었습니다.
언급할 가치가 있는 점은 이 데이터 세트에는 2005년부터 2018년 사이의 다양한 플랫폼과 기록 시스템에서 수동으로 주석이 달린 꼬리 데이터가 포함되어 있다는 것입니다. 여기에는 2014년부터 2018년까지 향유고래에 부착된 센서(DTag)에서 기록된 데이터도 포함됩니다.
향유고래의 각성에는 풍부한 조합적 특징이 있습니다.
향유고래 의사소통의 끝 부분의 변화와 장기적인 추세를 명확하게 관찰하기 위해 연구진은 시각화 방법을 사용하여 이러한 소리를 설명했습니다. 아래 그림과 같이, 그림 A는 DSWP 데이터 세트에서 2분 이내에 두 고래가 주고받은 꼬리 소리 다이어그램을 보여주며, 고래가 내는 꼬리 소리는 각각 파란색과 주황색으로 표현됩니다.

다음으로, 연구자들은 이러한 깨어남을 시간-시간 플롯에 투영하여 2분 동안 향유고래 깨어남의 변화를 관찰했습니다. 그림 B와 그림 C에서 볼 수 있듯이, 수평축은 향유고래가 의사소통을 시작한 이후의 시간을 나타내고, 수직축은 의사소통이 끝난 이후의 시간을 나타냅니다. 그림 C에서 연구자들은 또한 인접한 코다 사이에서 일치하는 클릭을 연결했습니다. 의사소통 중에 코다의 지속 시간이 부드럽게 바뀌고 추가적인 클릭이 나타나는 것을 볼 수 있는데, 이는 코다 구조에 복잡한 맥락적 변화가 있음을 보여줍니다. 이는 향유고래가 이전에 보고된 연구보다 더 큰 정보 전달 능력을 가지고 있음을 나타냅니다.
이전에는 향유고래가 21가지 종류의 꼬리 소리를 낸다고 생각했습니다. 이 연구에서는다양한 코다 유형은 두 가지 문맥 독립적 특징(템포와 리듬)과 두 가지 문맥 종속적 특징(루바토와 장식)으로 구성됩니다.
아래 그림에서 보듯이, 연구자들은 지속 시간 내에 유한한 패턴으로 분포된 꼬리 소리의 특성을 템포라고 명명했습니다. 그 중 왼쪽 그림은 향유고래 꼬리 소리의 총 지속시간이 클릭 간격의 합이라는 것을 보여줍니다. 오른쪽 그림은 다양한 리듬 유형의 테일 사운드의 변화를 보여줍니다.

그림 B에서 연구자들은 총 지속 시간에 따라 ICI 벡터를 정규화하여 지속 시간과 독립적인 코다 표현을 얻었고 이를 리듬이라고 명명했습니다.

그림 C에서 연구자들은 향유고래가 일련의 깨어 있는 흔적의 지속 시간을 천천히 조절하는 것을 루바토라고 부르고, 루바토가 점진적이라고 언급했습니다. 즉, 향유고래가 소통하는 곳에서 인접한 깨어 있는 흔적은 다른 곳에서 나타나는 유사한 깨어 있는 흔적보다 지속 시간이 더 짧다는 것입니다.

그림 D에서 연구자들은 향유고래가 지나간 자리에 남은 마지막 소리를 장식으로 정의했습니다. 장신구는 무작위로 분포되지 않고, 긴 교환 기간 동안 특정 위치에 나타납니다.
연구 결과 (1) 단일 고래의 울음소리 시퀀스에서 울음소리 시퀀스 시작 부분에 나타나는 장식음 시퀀스의 비율이 장식음이 없는 시퀀스의 비율보다 상당히 높은 것으로 나타났습니다. (2) 장식음 시퀀스가 호출 시퀀스의 끝에 나타나는 비율도 장식음이 없는 시퀀스보다 상당히 높습니다.

연구자들은 고래가 음성으로 의사소통을 할 때 이 네 가지 특징을 모두 감지하고 행동으로 옮길 수 있다고 지적하며, 따라서 이것이 고래 의사소통 시스템의 의식적인 구성 요소라고 주장합니다.리듬, 박자, 트레몰로, 장식음은 자유롭게 결합될 수 있으며, 이를 통해 고래는 체계적으로 수많은 구별 가능한 코다를 합성할 수 있습니다.
연구 결과: 향유고래 발음 알파벳, 인간 언어 레퍼토리와 매우 유사
위의 시각적 분석을 통해,연구진은 머신 러닝을 사용하여 향유고래의 발음 알파벳을 분리해냈는데, 이는 인간 언어 라이브러리와 매우 유사합니다.다음 그림과 같이:

수평축은 코다 리듬 유형을 나타내고, 수직축은 코다 리듬 유형을 나타내며, 각 셀의 색상은 DSWP 데이터 세트에 리듬/리듬 조합이 나타나는 횟수를 나타냅니다. 각 셀의 원형 차트는 각 기능 조합에 대한 코다에서 트레몰로와 장식음이 함께 사용되는 정도에 대한 정보를 제공합니다. 왼쪽의 원형 차트는 트레몰로가 있는 코다와 트레몰로가 없는 코다의 비율을 보여주고, 오른쪽의 원형 차트는 해당 기능 조합에 나타나는 모든 장식음의 비율을 보여줍니다.
연구자들은 모든 꼬리 특징이 결합되지는 않았지만그러나 향유고래의 흔적은 불연속적이고 연속적인 매개변수가 결합된 풍부한 구조를 가지고 있으며, 그 중 최소 143가지의 조합이 흔적에 자주 결합되어 나타나며, 이는 이전에 확인된 21가지의 불연속 흔적 유형을 훌쩍 뛰어넘습니다.
CETI 프로젝트: 기계 학습을 사용하여 종 간 대화를 가능하게 하는 데 전념
이번에 MIT와 협력하는 CETI 조직은 향유고래의 흔적 연구에 있어서 높은 영향력을 행사하고 있습니다. CETI는 고급 머신 러닝과 로봇 공학을 적용하여 향유고래의 의사소통을 듣고 번역하는 비영리 기관입니다.이 조직은 향유고래 개체군의 의사소통 시스템을 이해하고 해석하여 효과적으로 보호한다는 목표로 2020년에 설립되었습니다.
CETI 팀은 다양한 대학의 세계적인 인공지능 및 자연어 처리 전문가, 암호학자, 언어학자, 해양 생물학자, 로봇공학자, 수중 음향학자로 구성되어 있습니다. 이 팀은 주로 동카리브해의 도미니카 공화국에 초점을 두고 있으며, 모든 연구와 결과는 오픈 소스로 공개될 것입니다.
위에 언급된 향유고래 발음 알파벳 외에도 연구팀은 향유고래 발성에 대한 다른 많은 연구를 수행했습니다.
2019년 8월 29일, CETI는 Scientific Reports에 "향유고래 생물음향 탐지 및 분류를 위한 딥 머신 러닝 기술"이라는 제목의 연구 결과를 게재했습니다.우리는 향유고래 생물음향에 머신러닝(ML) 기술을 적용하는 것이 가능한지 보여주고, 고래 발성의 의미 있는 표현을 학습하기 위한 신경망 구축의 효과를 확립합니다.
서류 주소:
https://www.nature.com/articles/s41598-019-48909-4
2022년 6월 17일, CETI는 IScience에 "향유고래 의사소통 이해를 향하여"라는 제목의 논문을 게재했습니다. 이 논문은 향유고래 의사소통의 기록 및 분석 방법에 초점을 맞추었으며, 주요 내용은 다음과 같습니다.
녹음: 다양한 센서에서 수집한 고래 의사소통 및 행동 데이터의 대규모 종단 다중 모드 데이터 세트
처리: 다중 센서 데이터의 조정 및 처리
디코딩: 머신 러닝 기술을 사용하여 고래 의사소통 모델을 만들고, 구조를 특성화하고, 이를 행동과 연결합니다.
인코딩 및 재생: 대화형 재생 실험을 수행하고 고래 언어 모델을 개선합니다.

서류 주소:
https://www.sciencedirect.com/science/article/pii/S2589004222006642
2023년 12월 4일CETI는 머신 러닝을 사용하여 향유고래 코다의 모음과 이중모음을 발견했으며, 두 코다가 서로 다른 전통적인 코다 유형에 나타날 수 있음을 확인했습니다..
2024년 3월 24일, 연구팀은 향유고래가 수중을 항해할 때 일련의 충동적인 "클릭과 비슷한" 클릭 소리를 낸다는 것을 발견하고 이를 반향정위 클릭이라고 명명했습니다. 그들은 또한 소음이 많은 환경에서도 향유고래의 반향정위 클릭음이 존재한다는 것을 감지했습니다.
향유고래는 지능이 매우 높은 포유류로, 그 언어 체계가 인간의 언어 체계와 매우 유사한 것으로 나타났습니다. 머신러닝 기술이 급속히 발전하는 시대에, 점점 더 많은 전문가들이 향유고래 발성 연구 프로젝트에 참여하고 있습니다. 연구가 더욱 심화됨에 따라 인간과 고래의 대화가 현실이 될 것으로 기대됩니다.
참고문헌:
1.https://www.projectceti.org/news-research-insights#publications