GPT-4o: 다중 모드 대형 언어 모델의 자돈 활동 이해에서 시각 인식 성능

동물 행동학은 동물 연구의 중요한 측면이며, 동물 행동 라벨링은 동물 행동 연구의 기초입니다. 이 과정은 일반적으로 개별 동물의 행동을 의미론적 태그로 표시하는 것으로, 복잡하고 주관적이며 다중 모드(multimodal)적인 작업입니다. 다중 모드 대형 언어 모델(LLMs)의 급속한 발전으로 인해 가축 환경에서 동물 행동 이해 작업에 새로운 응용 분야가 등장했습니다. 본 연구는 다중 모드 LLMs의 시각 인식 능력을 평가하기 위해 돼지 새끼 활동 인식에서 활용하였습니다. 이를 위해 개별 돼지 새끼의 근접 영상 클립과 전체 화면 영상 클립을 주석화한 돼지 새끼 테스트 데이터를 생성하였습니다. 이러한 데이터를 사용하여 Video-LLaMA, MiniGPT4-Video, Video-Chat2, 그리고 GPT-4 omni (GPT-4o)라는 네 가지 다중 모드 LLMs의 돼지 새끼 활동 이해 성능을 평가하였습니다. 세부적으로는 수량(counting), 행위자 지칭(actor referring), 의미론적 일치(semantic correspondence), 시간 인식(time perception), 그리고 견고성(robustness) 등 5개 차원에서 종합적으로 평가하였으며, 현재 다중 모드 LLMs가 의미론적 일치와 시간 인식 측면에서 개선이 필요함을 확인하였습니다. 그러나 초기적으로는 동물 활동 인식을 위한 시각 인식 능력을 보여주었습니다. 특히 GPT-4o는 우수한 성능을 보였으며, 근접 영상 클립에서는 Video-Chat2와 GPT-4o가 전체 화면 클립보다 유의미하게 더 좋은 의미론적 일치와 시간 인식을 나타냈습니다. 본 연구의 초기 평가 실험은 가축 환경에서 비디오 이해를 위한 다중 모드 대형 언어 모델의 잠재력을 검증하며, 향후 동물 행동 비디오 이해 연구에 새로운 방향과 참고 자료를 제공합니다. 또한 시각 프롬프트가 다중 모드 대형 언어 모델에 미치는 영향을 깊이 있게 탐구함으로써, 인간의 시각 처리 방법을 통해 가축 환경에서 동물 행동 인식의 정확성과 효율성을 향상시키기를 기대합니다.