GPT-4o: 複数モーダル大規模言語モデルの視覚認識性能と子豚の活動理解

動物行動学は動物研究の重要な側面であり、動物の行動をラベリングすることは行動研究の基礎となっています。このプロセスは通常、行動の意味タグでビデオクリップをラベリングすることを含み、複雑で主観的かつ多様なタスクです。多モーダル大規模言語モデル(LLMs)の急速な発展により、家畜シナリオにおける動物行動理解タスクに新しい応用が現れています。本研究では、多モーダルLLMが動物活動認識における視覚認識能力を持つかどうかを評価しています。そのため、個々の子豚のアップクローズ映像からなるテストデータを作成し、フルショットのビデオクリップをアノテーションしました。これらのデータを使用して、4つの多モーダルLLM(Video-LLaMA, MiniGPT4-Video, Video-Chat2, および GPT-4 omni (GPT-4o))が子豚の活動理解においてどの程度の性能を示すかを評価しました。5つの次元(カウント、アクター参照、意味対応、時間認識、堅牢性)での包括的な評価を通じて、現在の多モーダルLLMは意味対応と時間認識において改善が必要であることが判明しましたが、初期的に動物活動認識における視覚認識能力を示していることが確認されました。特にGPT-4oは優れた性能を示し、アップクローズ映像ではVideo-Chat2とGPT-4oがフルショット映像よりも有意に優れた意味対応と時間認識を示しました。本研究での初期評価実験は、多モーダル大規模言語モデルが家畜シーンでのビデオ理解に潜在的な可能性を持ち、将来の動物行動ビデオ理解に関する研究に新たな方向性と参考資料を提供することを証明しています。さらに、視覚プロンプトが多モーダル大規模言語モデルに与える影響について深く探ることで、人間の視覚処理手法を通じて家畜シナリオにおける動物行動認識の精度と効率を向上させることを目指しています。