L'équipe Du MIT/CETI Utilise L'apprentissage Automatique Pour Isoler L'alphabet De Prononciation Du Cachalot ! Très Similaire Au Système Linguistique Humain, Avec Une Capacité De Transport D’informations Plus Forte !

Dans la recherche en écologie marine, la bioacoustique est un moyen important pour les personnes d’obtenir des informations sur les organismes marins.Comme son nom l’indique, la bioacoustique étudie principalement la génération, la propagation et la réception des sons animaux.Grâce au développement de la technologie, les chercheurs sont désormais capables de décoder les sons des animaux pour comprendre leur espèce, leur sexe, leur identification individuelle ou leur état de santé.
Cependant, la bioacoustique traditionnelle nécessite beaucoup de main-d’œuvre pour traiter et analyser les enregistrements de terrain lors de la surveillance des populations, ce qui prend du temps et coûte cher. Les avancées de l’IA dans la reconnaissance sonore offrent une solution idéale à ce défi. L’apprentissage automatique a fait de grands progrès dans le domaine de la bioacoustique grâce à ses capacités de traitement automatisé et d’auto-apprentissage.
Aujourd’hui, l’analyse par apprentissage automatique des sons de la vie marine a atteint une application mature. Parmi toutes les créatures marines, les cétacés tels que les baleines et les dauphins présentent des caractéristiques de comportement social et coopératif complexes, qui sont très similaires à la société humaine et ont une valeur de recherche extrêmement élevée.
Parmi eux, les cachalots sont devenus le centre de la recherche en raison de leur système linguistique très similaire à celui de la société humaine.
En tant que mammifère très social, les cachalots vivent en famille et ont une structure sociale complexe.Pour prendre des décisions de groupe, ils communiquent la plupart du temps en émettant des sons de « clic » continus, qui peuvent durer aussi peu que 10 secondes ou jusqu'à une demi-heure. Bien que leur système de communication semble simple, il peut réaliser une série de comportements coordonnés complexes. Le contraste entre les deux est devenu un « casse-tête » que les chercheurs souhaitent résoudre. Un grand nombre d’études antérieures ont démontré la complexité des vocalisations des cachalots, mais les caractéristiques spécifiques et la structure de leurs codas restent inconnues.
À cette fin, Pratyusha Sharma du MIT et des chercheurs du CETI ont utilisé l’apprentissage automatique pour analyser les enregistrements de cachalots.Il a été confirmé que les sons émis par les cachalots sont structurés et formés par une combinaison de différentes caractéristiques. L'alphabet de prononciation du cachalot a également été séparé grâce à la technologie d'apprentissage automatique, et il a été découvert que son système d'expression linguistique est très similaire à celui des humains et possède une plus grande capacité de transport d'informations.
La recherche connexe a été publiée dans Nature Communications sous le titre « Structure contextuelle et combinatoire des vocalisations des cachalots ».
Points saillants de la recherche :
* Cette étude a utilisé les données du Dominica Sperm Whale Project (DSWP), la plus grande base de données disponible sur les cachalots, pour analyser 8 719 enregistrements de coda provenant d'environ 60 cachalots différents de la communauté des cachalots des Caraïbes orientales et a défini un « alphabet phonétique des cachalots ».
* Le langage du cachalot est combinatoire, ce qui signifie qu'il peut combiner et moduler différents « clics » et rythmes pour créer des vocalisations complexes qui sont très similaires au langage humain.

Adresse du document :
https://www.nature.com/articles/s41467-024-47221-8
Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s
Ensemble de données : grande quantité de données et longue période
L'ensemble de données utilisé dans cette étude provient du Dominica Sperm Whale Project (DSWP), qui est actuellement le plus grand référentiel de données sur les cachalots.Les chercheurs ont utilisé des enregistrements de 60 cachalots différents du clade 1 des cachalots des Caraïbes orientales (EC-1) dans leur analyse, qui comprenait un total de 8 719 données de sillage.
Il convient de mentionner que l’ensemble de données contient non seulement des données de queue annotées manuellement provenant de diverses plates-formes et systèmes d’enregistrement entre 2005 et 2018 ; il comprend également des données enregistrées à partir de capteurs (DTags) attachés aux cachalots entre 2014 et 2018.
Le sillage du cachalot présente de riches caractéristiques combinées
Pour observer clairement les changements dans les terminaisons de la communication des cachalots et les tendances à long terme, les chercheurs ont utilisé une méthode de visualisation pour décrire ces sons. Comme le montre la figure ci-dessous : la figure A montre le diagramme du son de la queue de la communication entre deux baleines en 2 minutes dans l'ensemble de données DSWP, et les sons de la queue émis par les baleines sont représentés respectivement en bleu et en orange.

Ensuite, les chercheurs ont projeté ces sillages sur un graphique temps-temps pour observer les changements dans les sillages des cachalots sur une période de 2 minutes. Comme le montrent les figures B et C, l’axe horizontal représente le temps écoulé depuis que les cachalots ont commencé à communiquer, et l’axe vertical représente le temps écoulé depuis la fin de la communication. Dans la figure C, les chercheurs ont également connecté les clics correspondants entre les codas adjacentes. On peut voir que pendant la communication, la coda change progressivement de durée et des clics supplémentaires apparaissent, révélant des changements contextuels complexes dans la structure de la coda, indiquant que les cachalots ont une plus grande capacité de transport d'informations que ce qui avait été rapporté précédemment dans les études.
Auparavant, on pensait que les cachalots avaient 21 types différents de sons de queue. Cette étude a montré queLes différents types de coda sont composés de deux caractéristiques indépendantes du contexte (tempo et rythme) et de deux caractéristiques dépendantes du contexte (rubato et ornementation).
Comme le montre la figure ci-dessous, les chercheurs ont nommé les caractéristiques du son de la queue distribuées dans un ensemble fini de modèles dans la durée comme tempo. Parmi elles, l'image de gauche révèle que la durée totale du son de la queue du cachalot est la somme de ses intervalles de clics ; l'image de droite montre les changements dans les sons de queue de différents types de rythmes.

Dans la figure B, les chercheurs ont normalisé le vecteur ICI par durée totale pour obtenir une représentation de coda indépendante de la durée et l'ont nommée Rythme.

Dans la figure C, les chercheurs ont appelé rubato l'ajustement lent du cachalot à la durée d'une série de sillages, et ont noté que le rubato est progressif, c'est-à-dire que les sillages adjacents dans la communication des cachalots sont plus proches en durée que les sillages similaires ailleurs.

Dans la figure D, les chercheurs ont défini le dernier clic dans le sillage du cachalot comme une ornementation. Les ornements ne sont pas distribués au hasard mais apparaissent à des endroits spécifiques lors d'échanges plus longs.
L’étude a révélé que (1) dans la séquence d’appel d’une seule baleine, la proportion de la séquence de sons ornementaux apparaissant au début de la séquence d’appel est significativement plus élevée que celle de la séquence sans sons ornementaux ; (2) la proportion de la séquence de sons ornementaux apparaissant à la fin de la séquence d'appel est également significativement plus élevée que celle de la séquence sans sons ornementaux.

Les chercheurs notent que ces quatre caractéristiques peuvent être détectées et exploitées par les baleines lors d'une communication vocale, elles constituent donc un élément conscient du système de communication de la baleine.Le rythme, la mesure, le trémolo et l'ornementation peuvent être combinés librement, permettant aux baleines de synthétiser systématiquement un grand nombre de codas distinctes.
Résultats de recherche : L'alphabet de prononciation du cachalot est très similaire au répertoire linguistique humain
Grâce à l’analyse visuelle ci-dessus,Les chercheurs ont utilisé l’apprentissage automatique pour isoler l’alphabet de prononciation du cachalot, qui est très similaire à la bibliothèque du langage humain.Comme le montre la figure suivante :

L'axe horizontal représente le type de rythme de coda, l'axe vertical représente le type de rythme de coda et la couleur de chaque cellule représente le nombre de fois que la combinaison rythme/rythme apparaît dans l'ensemble de données DSWP. Les graphiques à secteurs dans chaque cellule fournissent des informations sur la mesure dans laquelle le trémolo et les ornements sont utilisés ensemble dans les codas pour chaque combinaison de fonctionnalités : le graphique à secteurs de gauche montre la proportion de codas avec trémolo par rapport aux codas sans trémolo, tandis que le graphique à secteurs de droite montre la proportion de tous les ornements qui apparaissent dans cette combinaison de fonctionnalités.
Les chercheurs ont noté que même si toutes les caractéristiques de la queue n'étaient pas combinées,Cependant, le sillage du cachalot présente une structure de combinaison riche avec des paramètres discrets et continus, dont au moins 143 combinaisons apparaissent fréquemment en combinaison dans le sillage, dépassant de loin les 21 types de sillage discrets précédemment identifiés.
Projet CETI : dédié à l'utilisation de l'apprentissage automatique pour permettre des conversations inter-espèces
L'organisation CETI, qui collabore cette fois avec le MIT, a une voix importante dans l'étude des sillages des cachalots. Le CETI est une organisation à but non lucratif qui applique l’apprentissage automatique avancé et la robotique pour écouter et traduire la communication des cachalots.L'organisation a été fondée en 2020 dans le but de protéger efficacement les populations de cachalots en comprenant et en traduisant leur système de communication.
L'équipe du CETI est composée d'experts de renommée mondiale en intelligence artificielle et en traitement du langage naturel, de cryptographes, de linguistes, de biologistes marins, de roboticiens et d'acousticiens sous-marins issus de diverses universités. L'équipe se concentre principalement sur la République dominicaine dans les Caraïbes orientales, et toutes les recherches et découvertes seront open source.
En plus de l’alphabet de prononciation des cachalots mentionné ci-dessus, l’équipe a réalisé de nombreuses autres études sur les vocalisations des cachalots.
Le 29 août 2019, le CETI a publié un résultat de recherche intitulé « Techniques d'apprentissage automatique profond pour la détection et la classification de la bioacoustique des cachalots » dans Scientific Reports.Nous démontrons la faisabilité de l’application de techniques d’apprentissage automatique (ML) à la bioacoustique des cachalots et établissons l’efficacité de la construction de réseaux neuronaux pour apprendre des représentations significatives des vocalisations des baleines.
Adresse du document :
https://www.nature.com/articles/s41598-019-48909-4
Le 17 juin 2022, le CETI a publié « Vers une compréhension de la communication chez les cachalots » dans IScience, en se concentrant sur les méthodes d'enregistrement et d'analyse de la communication des cachalots, y compris les étapes clés suivantes :
Enregistrement : Un ensemble de données multimodales longitudinales à grande échelle sur la communication et le comportement des baleines collectées à partir de divers capteurs ;
Traitement : Coordination et traitement des données multi-capteurs ;
Décodage : En utilisant des techniques d’apprentissage automatique, nous créons des modèles de communication des baleines, caractérisons sa structure et la relions au comportement ;
Encoder et rejouer : mener des expériences de lecture interactives et affiner le modèle de langage des baleines.

Adresse du document :
https://www.sciencedirect.com/science/article/pii/S2589004222006642
4 décembre 2023Le CETI a utilisé l'apprentissage automatique pour découvrir les voyelles et les diphtongues dans les codas des cachalots, et que les deux codas peuvent apparaître dans différents types de coda traditionnels..
Le 24 mars 2024, l'équipe de chercheurs a découvert que les cachalots émettaient une série de clics impulsifs, semblables à des « clics », lorsqu'ils naviguaient sous l'eau, et ont nommé cela des clics d'écholocation. Ils ont également détecté l’existence de clics d’écholocation de cachalots dans un environnement bruyant.
En tant que mammifère très intelligent, le système linguistique du cachalot s'est avéré très similaire à celui des humains. À l’ère du développement rapide de la technologie d’apprentissage automatique, de plus en plus de professionnels rejoignent le projet de recherche sur la vocalisation des cachalots. À mesure que la recherche continue de s’approfondir, le dialogue entre les humains et les baleines devrait devenir une réalité.
Références :
1.https://www.projectceti.org/news-research-insights#publications