ニューラル ネットワークを使用して、トムをリアルタイムでジェリーを追跡させます

6 年前

本当に緊張しました

神经小兮

特色图像

分野大量の動物のビデオ データを使用してニューラル ネットワークをトレーニングし、複雑で動的な環境での動物の行動の観察において動物と背景のセグメンテーション効果を向上させ、より優れた動物追跡を可能にします。

なぜ鳥は時々卵をつつくのでしょうか?リスは尻尾を振ることで何を表現したいのでしょうか?猫は恐怖か怒りで身を丸めていますか?動物たちのさまざまな行動の背後に、このグループの秘密はあるのでしょうか?

猫たちの小さな思い、わかりますか?

初期の時代、一部の部族や地域では動物を神とみなし、人々は動物から予言や神からの贈り物を得ることを望んでいました。

ダーウィンは動物の行動を研究した最初の科学者の一人でした。

しかし、初期の行動研究は肉眼観察と単純な記録装置にのみ依存していました。

その後、ビデオ観察や無線遠隔測定などの先進技術の応用により、自然条件をシミュレートした野外や実験室で動物の行動を監視および定量化できるようになり、大量のデータが電子コンピュータで処理されるようになり、動物行動学は定量的原理に従属するようになりました。 。  

近年、AI技術は動物の「行動言語」の捕捉と追跡にも再利用されています。 

AI ツールを使用して動物の手足の動きの詳細を追跡する

最近、米国のジャクソン研究所の研究者らは、最新の畳み込みニューラル ネットワーク アーキテクチャを使用して、オープン フィールドでスケーラブルなマウス追跡方法を開発し、複雑で動的環境における動物の動きと行動を追跡することに成功し、その精度は人工に達する可能性があります。レベル。

報告書によると、彼らが訓練したニューラルネットワークは、簡単な例の学習方法を使用して、さまざまな環境で毛色、体形、行動が異なるマウスを長期間追跡することができ、プロセス中に継続的な手動監視を必要としません。 

人と自然:行動学を通じてお互いを理解する 

宇宙は広く、地球の存在は孤独で尊いものです。この地球上では、完全な言語体系を持つ人間を除いて、話す能力を持った動物は存在しません。このことが、人間と他の民族の間に本質的な違いとギャップを生み出しています。

世界中の人々はさまざまな動物を「神の使者」とみなしています
自分たちにプレゼントを持ってくると思って

しかし、動物の行動はある意味で彼らの「言語」なのです。彼らのさまざまな行動には、特定の生理学的根拠があります。これらの行動を観察することで、人間は動物の生理状態や感情表現、学習行動などを理解することができ、心理学や教育などに一定の影響を与えると考えられます。 

また、繁殖産業においては、さまざまな環境条件下での動物の行動反応を観察し、動物の活動パターンを理解することで、動物の管理レベルや生産能力の向上に役立てることができます。 

ハエやネズミの行動を研究し、対象動物の駆除を目指す研究室にとって、これらの研究によって伝染病を蔓延させる害虫や細菌を完全に駆除することができれば、社会へのメリットはさらに大きくなります。

動物のビデオを観察することは、さまざまな動物実験室における主要な研究手段の 1 つですが、多数のビデオに手動でラベルを付けるのは時間と労力がかかりすぎます。

動物の行動を追跡することで生成される大量のビデオデータは、AI技術によって人手による追跡やマーキング作業が代替でき、さらには人手よりも正確に追跡することも可能です。

2018年に米国のハーバード大学のチームによって開発されたオープンソースツール
小動物の行動を正確かつ迅速に追跡できる「DeepLabCut」

米国のジャクソン研究所チームは、大量の動物ビデオ データを分析し、動物ビデオを自動的に分析、追跡、さらには予測できるようにニューラル ネットワークをトレーニングしています。 

害虫の駆除: ニューラル ネットワーク ベースのネズミ追跡ツール 

ジャクソン研究所は、ニューラル ネットワーク ベースのトラッカーを使用して、マウスの自動追跡を実現するために、各ビデオ フレームを手動でマークしたり、調査対象物にマーカーを配置したりする必要はありません。

彼らは、異なるマウスおよび異なる環境条件に対する 3 つの異なる神経ネットワーク構造の視覚効果を比較しました。最初のアーキテクチャはエンコーダ/デコーダ セグメンテーション ネットワーク、2 番目のネットワーク アーキテクチャはビニング分類ネットワーク、3 番目のアーキテクチャは回帰ネットワークです。 

トレーニング中にテストされたネットワーク アーキテクチャのパフォーマンス

実験結果は、エンコーダ/デコーダ セグメンテーション ニューラル ネットワークが最小限のトレーニング データで高いセグメンテーション精度と速度を備えていることを示しています。さらに、行動科学および神経科学コミュニティ向けに、ラベル付けインターフェイス、ラベル付きトレーニング データ、調整されたハイパーパラメーター、および事前トレーニングされたネットワークを提供します。 

研究では、マウスが実行する豊富な移動動作をビデオでキャプチャするために、分析のためにマウスを単純な点、重心、または楕円に抽象化することがよくあります。既存の方法をより効果的に利用してマウスを追跡し、適切なセグメンテーションを実行するために、チームは実験環境を簡素化し、マウスと背景の間の最良のコントラストを得ました。 

ニューラル ネットワークは、マウスに属するビデオ内のピクセルを背景から分類し、これらの高レベルの抽象的な動作を数学的計算用のデータに変換できるようにします。

動物をよりよく区別するために、研究者は動物の行動に影響を与える可能性がある動物の毛皮の色に基づいてフィールドの背景色を変更することがよくあります。 

ニューラル ネットワークを使用するトラッカーでは、これを行う必要はありません。複雑で動的な環境条件下でも、コーティングの色に関係なく追跡が可能になります。

その結果、トムがこの技術を習得したとしても、小さなネズミのジェリーはまだ元気に飛び回ることができるだろうかと心配せずにはいられません。

正確な追跡: 多くのトレーニングが必要

ニューラル ネットワーク アーキテクチャをテストするために、彼らは次のことを確立しました。 16,234 枚のトレーニング画像と 568 枚の保持された検証画像からなるトレーニング データセット。また、前景と背景の高速な注釈を可能にするトレーニング データ (メソッド) を作成するための OpenCV ベースのラベリング インターフェイスも作成しました。 

彼らのネットワークは Tensorflow v1.0 で構築、トレーニング、テストされました。提供されるトレーニング ベンチマークは、Nvidia P100 GPU アーキテクチャで実行されます。ハイパーパラメータは、トレーニングを数回繰り返して調整されました。 

最終的には、上記の 3 つの異なるアーキテクチャ全体で最高レベルの精度と機能を高速 (リアルタイム 6 倍以上) で達成できる、エンコーダ/デコーダでセグメント化されたネットワーク アーキテクチャが実現します。

さらに、ユーザーが約 3 時間でわずか 2500 枚の画像に注釈を付けることで、特定の環境に合わせて新しいネットワークをトレーニングできる注釈インターフェイスが提供されます。 

ニューラルネットワーク追跡は従来の方法を打ち破る 

従来の追跡方法と比較して、チームによってトレーニングされたニューラル ネットワーク追跡方法は、主に次の 2 つの側面で「優れています」。

1. 前景と背景の間の視覚的なコントラストに依存しません。

従来の追跡方法は、環境条件を操作して動物と背景の間のコントラストを高めることにより、正しい前景/背景の検出 (セグメンテーション) を実現します。しかし、これは動物のセグメンテーションの根本的な問題を解決するものではなく、正確な追跡のために前景と背景の間の視覚的なコントラストに依存しています。したがって、研究者は最適な結果を得るために環境を制限する必要があります。 

つまり、このビデオ追跡技術は、複雑で動的な環境や、遺伝的に異質な動物では使用できず、長期的かつ大規模な実験が不可能になります。     

上記の問題を克服するために、チームは次の方法を使用しました。畳み込みネットワーク、ニューラル ネットワークは、セグメンテーションの品質を向上させます。さらに、セマンティック セグメンテーション テクノロジは、従来の背景の減算では解決できない動的環境の一般化機能を提供するためにも使用されます。

この実験には、黒、アグーチ、アルビノ、灰色、褐色、ヌード、斑点など、さまざまな毛色の発現をもたらした、さまざまな遺伝的背景を持つマウスのビデオが含まれていました。

2. 特別な位置でマウスを追跡する

環境がトラッキングに適さなくなるにつれて、1 つのビデオ内で不正なトラッキングが発生する頻度が増加します。たとえば、マウスが部屋の隅、壁の近く、または食品カップの上にいた場合、追跡は非常に不正確でした。 

ほとんどの場合、背景からのマウスのセグメンテーションが不十分であることによっても、不正確な追跡が発生します。これには 2 種類のエラーが含まれます。背景の一部が前景に分割される (影など)、およびマウスの一部が前景から削除されるとマウスが背景として誤って分類される (背景色と一致するアルビノ マウスなど)。 。 

この問題を解決するために、実験では赤外線光源を使用して明暗の異なる条件下でマウスの位置を記録し、赤外線ビームグリッドを使用してマウスの現在位置を検出し、時刻を含む24時間のビデオを収集しました。マウスはフードカップまたは隅に置かれ、最後にビデオデータの最適化が分析されました。

トレーニングされたニューラル ネットワークと人間による注釈を比較した場合、チームは前者のパフォーマンスが Ctrax (オープンソースで無料で利用できるマシン ビジョン プログラム) よりも優れていると結論付けました。

ひずみ測定を含む、単一のニューラル ネットワークを使用した拡張性の高い追跡により、マウスの視覚的な変化も追跡します

この技術がより広く使用されれば、研究者の時間を大幅に節約できるだけでなく、複雑な環境で小動物を追跡したり、より鮮やかで魔法のような動物の世界を見るために使用したりするなど、さらに新しい発見がもたらされる可能性があります。

将来的には、機械学習を使用して伝染病の原因を見つけ、家庭でのペットのニーズを理解し、希少動物の動きを追跡し、世界をより良い場所にすることもできます。

クリックすると原文が読めます