신경망을 사용하면 Tom은 Jerry를 실시간으로 추적할 수 있습니다.

필드대량의 동물 비디오 데이터를 사용하여 신경망을 훈련하면 복잡하고 역동적인 환경에서 동물 행동을 관찰할 때 동물과 배경을 더 잘 구분할 수 있어 동물을 더 잘 추적할 수 있습니다.
새들이 가끔 알을 쪼는 이유는 무엇일까? 다람쥐가 꼬리를 흔드는 것은 무슨 뜻일까? 고양이가 등을 굽히는 것은 두려운가, 아니면 화가 났을 때를 뜻하는가? 동물들의 다양한 행동 뒤에는 이 집단의 비밀이 숨겨져 있을까?

원시 시대에는 일부 부족과 지역에서는 동물을 신으로 여겼으며, 사람들은 동물로부터 신성한 징조와 축복을 얻기를 바랐습니다.
동물 행동에 대한 과학적 연구가 시작된 것은 20세기가 되어서였으며, 다윈은 이를 수행한 최초의 과학자 중 한 명이었습니다.
하지만 초기 행동 연구는 시각적 관찰과 간단한 기록에만 의존할 수 있었습니다.
이후, 비디오 관찰이나 무선 원격 측정과 같은 첨단 기술을 적용하면서 자연 조건을 시뮬레이션한 현장이나 실험실에서 동물의 행동을 모니터링하고 정량화할 수 있게 되었습니다. 엄청난 양의 데이터가 전자 컴퓨터로 처리될 수 있기 때문에 행동 과학은 양적 기준에 따라야 합니다.
최근 몇 년 동안 AI 기술은 동물의 "행동 언어"를 포착하고 추적하는 데에도 재사용되고 있습니다.

최근 미국 잭슨 연구소의 연구진은 현대식 합성 신경망 아키텍처를 사용하여 야외에서 확장 가능한 마우스 추적 방법을 개발했습니다. 이 방법을 통해 복잡하고 역동적인 환경에서 동물의 움직임과 행동을 인간 수준에 도달하는 정확도로 성공적으로 추적했습니다.
연구진이 훈련시킨 신경망은 간단한 예시 학습 방법을 사용해 다양한 환경에서 서로 다른 털 색깔, 몸 모양, 행동을 가진 쥐를 장시간 추적할 수 있으며, 이 과정에 인간의 지속적인 감독이 필요하지 않다고 합니다.
인간과 자연: 행동학을 통해 서로를 이해하다
우주는 광활하고, 지구의 존재는 외롭고 소중합니다. 이 지구상에는 완벽한 언어 체계를 갖춘 인간을 제외한 다른 동물들은 언어 능력을 갖추고 있지 않습니다. 이로 인해 인간과 다른 인종 집단 사이에 본질적인 차이와 격차가 발생합니다.

그들은 자신들에게 축복을 가져다 줄 것이라고 믿는다
하지만 어떤 의미에서는 동물의 행동은 그들의 "언어"입니다. 그들의 모든 행동에는 특정한 생리학적 근거가 있습니다. 인간은 이러한 행동을 관찰함으로써 동물의 생리적 상태, 감정 표현, 학습 행동 등을 이해할 수 있으며, 이는 심리학이나 교육학 등의 학문에 일정한 영향을 미치게 됩니다.
또한, 사육 산업의 경우 다양한 환경 조건에서 동물의 행동 반응을 관찰하고 활동 패턴을 이해하면 동물 관리 수준과 생산 역량을 개선하는 데 도움이 될 수 있습니다.
목표 동물을 박멸할 목적으로 파리와 쥐의 행동을 연구하는 연구실의 경우, 이러한 연구를 통해 전염병과 박테리아를 퍼뜨리는 해충을 완전히 박멸할 수 있다면 사회적으로 얻을 수 있는 혜택이 훨씬 더 클 것입니다.
동물 비디오를 관찰하는 것은 다양한 동물 연구실에서 주요 연구 수단 중 하나이지만, 많은 수의 비디오에 수동으로 라벨을 붙여야 한다면 시간과 노동력이 너무 많이 소요될 것입니다.
동물의 행동을 추적하여 생성되는 방대한 양의 비디오 데이터의 경우, AI 기술은 수동 추적 및 표시 작업을 대체할 수 있으며, 심지어 인간보다 더 정확하게 추적할 수도 있습니다.

"DeepLabCut"은 소형 동물의 행동을 정확하고 빠르게 추적할 수 있습니다.
미국의 잭슨 연구소 팀은 대량의 동물 비디오 데이터를 분석하고 신경망을 훈련하여 동물 비디오를 자동으로 분석, 추적하고 심지어 예측할 수 있도록 했습니다.
해충 구제: 신경망 기반 마우스 추적기
잭슨 연구소는 신경망 기반 추적기를 사용합니다.각 비디오 프레임을 수동으로 표시하거나 연구 대상에 마커를 배치하지 않고도 자동으로 쥐를 추적할 수 있습니다.
연구진은 서로 다른 세 가지 신경망 구조의 시각적 효과를 서로 다른 쥐와 환경 조건에서 비교했습니다. 첫 번째 아키텍처는 인코더-디코더 분할 네트워크이고, 두 번째 네트워크 아키텍처는 빈 분류 네트워크이며, 세 번째 아키텍처는 회귀 네트워크입니다.

실험 결과에 따르면, 인코더-디코더 분할 신경망은 최소한의 학습 데이터로 높은 분할 정확도와 속도를 보입니다. 또한, 그들은 행동 및 신경 과학 커뮤니티를 위해 라벨링 인터페이스, 라벨이 지정된 교육 데이터, 조정된 하이퍼 매개변수, 사전 훈련된 네트워크를 제공합니다.
연구에서는 영상 속 쥐의 풍부한 움직임을 포착하기 위해 보통 쥐를 간단한 점, 질량 중심 또는 타원으로 추상화하여 분석합니다. 기존 방법을 더 잘 활용해 쥐를 추적하고 적절한 분할을 수행하기 위해 연구팀은 실험 환경을 단순화하고 쥐와 배경 간의 최상의 대비를 얻었습니다.
신경망은 비디오에서 마우스에 속하는 픽셀을 배경에서 분류하여 이러한 고수준의 추상적 행동을 수학적 계산을 위한 데이터로 변환할 수 있습니다.
동물을 더 잘 구별하기 위해 연구자들은 보통 동물의 털 색깔에 맞춰 장소의 배경색을 바꾸지만, 이는 동물의 행동에 영향을 미칠 가능성이 높습니다.
신경망을 사용하는 추적기에서는 이런 작업이 필요하지 않습니다. 복잡하고 역동적인 환경 조건에서도 코팅 색상에 관계없이 추적이 가능합니다.

이런 식으로 우리는 작은 쥐 제리에 대해 걱정하지 않을 수 없습니다. 톰이 이 기술을 터득한다면, 여전히 행복하게 뛰어다닐 수 있을까?
정확한 추적: 광범위한 교육이 필요합니다
신경망 아키텍처를 테스트하기 위해 그들은 다음을 확립했습니다. 16,234개의 훈련 이미지와 568개의 홀드아웃 검증 이미지로 구성된 훈련 데이터 세트입니다. 또한 그들은 전경과 배경에 대한 빠른 주석을 가능하게 하는 훈련 데이터(방법)를 생성하기 위한 OpenCV 기반 레이블링 인터페이스를 만들었습니다.
해당 네트워크는 Tensorflow v1.0에서 구축, 훈련, 테스트되었습니다. 제공된 교육 벤치마크는 Nvidia P100 GPU 아키텍처에서 수행되었습니다. 하이퍼파라미터는 여러 번의 훈련 반복을 거쳐 조정되었습니다.
최종 결과는 위에 언급된 세 가지 다른 아키텍처 중에서 인코더-디코더 분할 네트워크 아키텍처가 고속(실시간 6배 이상)으로 최고 수준의 정확도와 기능성을 달성할 수 있다는 것입니다.
또한, 사용자는 약 3시간 만에 2,500개의 이미지에 주석을 달아 자신의 특정 환경에 맞는 새로운 네트워크를 훈련할 수 있는 주석 인터페이스를 제공합니다.
신경망 추적은 기존 방식보다 성능이 뛰어납니다.
기존 추적 방법과 비교했을 때, 이 팀이 훈련시킨 신경망 추적 방법은 다음 두 가지 측면에서 "우승"합니다.
1. 전경-배경 시각적 대비에 대한 의존성 없음
기존의 추적 방법에서는 환경 조건을 조작하여 동물과 배경 사이의 대비를 높여서 정확한 전경/배경 감지(세그먼트화)를 달성합니다. 그러나 이 방법은 동물 구분의 근본적인 문제를 해결하지 못하며 정확한 추적을 위해 전경과 배경 사이의 시각적 대비에 의존합니다. 따라서 연구자들은 최상의 결과를 얻기 위해 환경을 제한해야 합니다.
즉, 이러한 비디오 추적 기술은 복잡하고 역동적인 환경이나 유전적으로 이질적인 동물에게는 사용할 수 없으므로 장기적이고 대규모 실험이 불가능합니다.
위의 문제를 극복하기 위해 팀은 다음을 사용했습니다.회선네트워크, 신경망은 세분화 품질을 향상시킵니다.또한, 의미 분할 기술은 기존 배경 뺄셈으로는 처리할 수 없는 동적 환경에 대한 일반화 기능을 제공하는 데 활용됩니다.

2. 특수 위치에서 마우스 추적
추적에 적합하지 않은 환경이 될수록 단일 비디오에서 잘못된 추적 인스턴스가 발생하는 빈도가 증가합니다. 예를 들어, 쥐가 모서리나 벽 근처, 음식 컵 위에 있을 경우 추적은 매우 부정확했습니다.
대부분의 경우, 잘못된 추적은 마우스와 배경의 분리가 제대로 이루어지지 않아 발생합니다. 여기에는 두 가지 유형의 오류가 포함됩니다. 배경의 일부가 전경으로 분할됩니다(예: 그림자). 그리고 마우스의 일부가 전경에서 제거되면(예: 배경색과 일치하는 백색증 마우스) 마우스가 배경으로 잘못 분류됩니다.
이 문제를 해결하기 위해 그들은 실험에서 적외선 광원을 사용하여 다양한 빛과 어둠 조건에서 쥐의 움직임을 기록하고, 적외선 빔 그리드를 사용하여 쥐의 현재 위치를 감지했으며, 쥐가 음식 컵 위나 모서리에 있는 시간을 포함하여 24시간 분량의 비디오를 수집했습니다. 마지막으로, 그들은 비디오 데이터를 최적화하고 분석했습니다.
연구팀은 훈련된 신경망을 인간의 주석과 비교한 결과, 훈련된 신경망이 오픈 소스로 무료로 제공되는 머신 비전 프로그램인 Ctrax보다 성능이 더 뛰어나다는 것을 발견했습니다.

이 기술이 더 널리 사용되면 연구자들의 시간을 크게 절약할 수 있을 뿐만 아니라, 복잡한 환경에서 작은 동물을 추적하거나 더욱 생생하고 신비로운 동물 세계를 보는 등 더 많은 새로운 발견이 이루어질 수도 있습니다.
미래에는 머신러닝을 사용하여 전염병의 근원을 찾고, 집에 있는 반려동물의 필요 사항을 파악하고, 희귀 동물의 움직임을 추적하고, 세상을 더 나은 곳으로 만들 수도 있습니다!