ジェフ・ディーンはGoogleの新しい研究を気に入っている:クジラの生物音響モデルは8種のクジラを識別できる

クジラの鳴き声を認識することは、海洋生態系を保護する上で非常に重要です。科学者はクジラの鳴き声を分析して、クジラの種類、移動ルート、繁殖習慣、社会構造を理解することで、より効果的な保護政策を策定できます。
しかし、クジラの鳴き声を識別するのは簡単なことではありません。まず第一に、現在世界には94種以上のクジラが知られており、その音響周波数範囲は非常に広く、シロナガスクジラの音波の10Hz程度からハクジラの120Hz程度の高い周波数にまで及びます。キロヘルツ。第二に、同じ種のクジラであっても記録は場所や時間によって大きく異なる可能性があり、モデル開発がさらに複雑になります。最後に、一部の希少なクジラ種の音響特徴に関する研究者の知識は限られており、異なるクジラ種の音を正確に区別することは不可能です。
これに応えて、Google Research チームは新しいクジラの生物音響モデルを開発しました。このモデルは、現在知られている 94 種のクジラのうち 8 種を識別できます。これらには、ザトウクジラ、シャチ、シロナガスクジラ、ナガスクジラ、ミンククジラ、ニタリクジラ、北大西洋セミクジラ、北太平洋セミクジラが含まれます。研究者らはまた、このモデルを Biotwang に拡張し、200,000 時間を超える水中記録のデータにラベルを付けるために使用しました。
関連する研究のタイトルは「Whistles, songs, boings, and biotwangs: Recognizing whale voiceizations with AI」で、Google Researchの公式ウェブサイトで公開された。
研究のハイライト:
* 94 種の鯨類のうち、複数の鳴き声を持つ 2 種を含む 8 種を認識
※最近ニタリクジラの鳴き声であることが確認されたビオワングの声も収録
* モデルは TensorFlow SavedModel API を通じて個別に呼び出すことができます

用紙のアドレス:
オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s
データセット: 約 94 種のクジラのうち 8 種をカバーする 4 つの新しいクジラの鳴き声データ セットを作成します。
既存のクジラの鳴き声認識データに基づいて、研究者らは 4 つの新しいクジラの鳴き声データセットを確立しました。これらには、ミンククジラの「ボイン」という鳴き声、北太平洋セミクジラの「アップコール」や「ガンショット」という鳴き声、シロナガスクジラやナガスクジラの鳴き声などが含まれます。
ミンククジラの「ブーイング」音
数十年前に記録された謎のビオワング音は、どの種のクジラによって発生されたのかは特定されていません。アメリカ海洋大気局(NOAA)の最新の研究結果では、最近までこの音はニタリクジラが発するものであると指摘されていた。
ミンククジラの鳴き声はニタリクジラの鳴き声よりも長く記録されており、その起源は1950年代の潜水艦録音にまで遡ります。 2005 年になって初めて、NOAA の科学者はこの特定の音がミンククジラによるものであると考えました。
研究者らが太平洋諸島水産科学センター(PIFSC)から入手した元のタグセットには、「ブーイング」として知られる音は含まれていなかった。そのため、Google の研究者がこのデータを初期モデルのトレーニングに使用したところ、モデルはこの音を誤ったパターンとして識別しました。その後、研究者らはこれらの新たに発見された音について詳細な研究を実施しました。最終的に、ミンククジラの鳴き声が正確に識別され、複数種の認識モデルに組み込まれました。

北太平洋セミクジラの「ライジングコール」と「ガンショット」コール
北太平洋セミクジラ (NPRW) は、極めて絶滅危惧種のクジラで、主に北太平洋の海域に分布しています。北太平洋のセミクジラはかつて捕鯨によってほぼ絶滅し、現在残っている個体数はごくわずかとなっている。東側のセミクジラの個体数はわずか 30 ~ 35 頭であると推定されています。
同時に、北太平洋セミクジラの個体群は、「歌う」ことが知られている唯一のセミクジラの個体群です。 「ライズコール」の音はセミクジラ、ホッキョククジラ、さらにはザトウクジラから発せられることもありますが、北太平洋セミクジラの独特の「銃声」の鳴き声によって区別できます。


シロナガスクジラとナガスクジラの音声タグ
研究者らは、最初に太平洋諸島漁業科学センター(PIFSC)と協力してザトウクジラのモデルを開発する前に、PIFSCはシロナガスクジラとナガスクジラの存在を特定するためにデータの一部に注釈を付けていたと述べた。これらのクジラはハワイ諸島周辺に生息しているだけでなく、世界の海洋の遠洋水域にも広く分布しています。
この研究では、研究者らはモントレー湾水族館研究所 (MBARI) が管理する MARS 水中聴音器によって収集されたデータに特に焦点を当てました。ただし、MARS データにはベンチマーク ラベルがないため、研究者らは PIFSC データに基づいてシロナガスクジラとナガスクジラを識別するためのモデルをトレーニングし、それを MBARI データの疑似ラベルの生成に使用しました。


モデル アーキテクチャ: 元の音声に基づいてスペクトログラムを分類
研究者らは、このモデルは最初に生の音声データをスペクトログラムの画像データに変換して、5 秒間の各音声セグメントを表すことを指摘しました。モデルのフロントエンドは、メルスケール周波数軸、対数圧縮振幅、および各周波数帯域の 5% ファイルの対数振幅の減算を使用して正規化されます。最後に、モデルは画像を 12 種類の鯨類または発声タイプのいずれかに分類しました。
さらに、モデルは TensorFlow の SavedModel API を通じて独立して呼び出すことができます。これは、このモデルを使用してモデルのトレーニングに含まれる種や音を識別できるだけでなく、このモデルの事前トレーニングされた埋め込みを使用して、新しい音やクジラ類の種を検索、識別し、対応する分類器を迅速に構築することもできることを意味します。
モデルテスト: モデルは各カテゴリーに対して優れた識別性能を持っています
長期にわたる受動的な音響モニタリングには、種を正しく分類するだけでなく、バックグラウンドや非動物的な音響イベントを正しく排除することも必要です。したがって、研究者らはトレーニングをポジティブなラベルに限定するのではなく、他の協力機関が提供した録音からネガティブなラベルや背景データも広範囲に抽出しました。
モデルを検証するために、研究者らは、利用可能なトレーニング データから 20% の均一なサブセットをテスト セットとしてランダムに選択しました。以下の図は、さまざまな種のテスト セットでのモデルのパフォーマンスを示しています。
* AUC (ROC) の値が高いことは、モデルが陽性ラベルと陰性ラベルをうまく区別できることを示します。
* 感度 @ 0.99 は、実際の陽性ラベル分類結果のうち、しきい値よりも高いスコアを示す部分を表します。これにより、99% の真の陰性ラベルが除外される可能性があります。
* 精度 @ 0.5 は、妥当な感度閾値 (真陽性ラベル分類結果よりも 50% 低い) で正しく予測された種の割合を表します。

合計で、このモデルは 8 種類のクジラを予測できます: ザトウクジラ、シャチ、シロナガスクジラ、ナガスクジラ、ミンククジラ、ニタリクジラ、北大西洋セミクジラ (NARW)、北太平洋セミクジラ (NPRW)。あらゆるカテゴリーの。ミンククジラ、北太平洋セミクジラ、北大西洋セミクジラ、ニタリクジラのカテゴリでは、3 つの指標すべての値が 1 に近く、偽陽性ラベルと偽陰性ラベルの間でモデルの優れたパフォーマンスが示されています。トレードオフが少なくなります。シャチのエコーロケーションと笛の場合、トレードオフはさらに顕著です。
AIと機械学習技術を融合し、海洋生物の保護に貢献
Google Research からの最新の結果の発表は、異種間のコミュニケーションを理解し、さらにはそれを実現する上で非常に重要です。 Google DeepMind と Google Research の首席科学者である Jeff Dean 氏は、ソーシャル プラットフォームで「人間の言語 LLM は時代遅れです。私たちは皆、仕事におけるこの画期的な進歩に興奮するはずです。」と述べました。

データサイエンスを専門とする上級マネージャーも、「海底のクジラの噂をついに解読できるようになりました!彼らが最新のオキアミのトレンドについて話しているのか、それとも海底の最高のホットスポットについて議論しているのかを知るのが待ちきれません!」と述べました。

一部のネチズンは、「これは地球上の他の種とコミュニケーションできるようになるための重要な一歩であり、マイルストーンだ!」と信じています。

科学者がクジラのコミュニケーション方法をより深く理解できるよう、Google は 2018 年以来、AI と機械学習テクノロジーを使用してクジラの鳴き声を分析および識別する方法を模索し、より多くの絶滅危惧種を保護し、健全な海洋生態系を維持する方法を模索してきました。
2018 年、Google Research は米国海洋大気庁 (NOAA) 太平洋諸島水産科学センター (PIFSC) と提携して、ザトウクジラの鳴き声を検出するための畳み込みニューラル ネットワークに基づく分類モデルが開発され、クジラの音響分類の研究が正式に開始されました。
このモデルは、NOAA が収集した 187,000 時間以上の音声からザトウクジラの鳴き声を特定し、ザトウクジラの鳴き声の時空間パターンを確認し、これまでザトウクジラの鳴き声が観察されていなかったキングマン リーフで新種を発見するために使用されました。
用紙のアドレス:
https://research.google/blog/acoustic-detection-of-humpback-whales-using-a-convolutional-neural-network/
2019年、研究者らはGoogle Creative Labと協力して、このモデルに基づいたインタラクティブな視覚化ツール「パターンラジオ」を立ち上げた。ハワイ近郊で収集されたクジラに関する 1 年間の水中音声データを紹介します。
モデルは音声に注釈を付け、データの一部には専門家からの追加の洞察が伴っていたため、研究者はクジラの音のパターン、特にザトウクジラの鳴き声をより正確に分析できるようになりました。
パターンラジオツールのアドレス:
https://patternradio.withgoogle.com/
実際、Google に加えて、CETI もクジラの音の研究に長年取り組んできました。今年5月、CETIはマサチューセッツ工科大学の研究者と協力し、機械学習を利用してマッコウクジラの録音を分析し、マッコウクジラが発する音は構造的なものであることを確認し、マッコウクジラの発音アルファベットを分離した。人間の言語表現と一致しています。システムは非常に似ています。
研究が続けば、異種コミュニケーションの新しい方法が現実になるかもしれません。この見通しは、海洋生物に対する私たちの理解を変えるだけでなく、人間と自然の関係を再定義し、人間と動物の調和のとれた共存の新たな時代の到来をもたらすことが期待されています。