GPT-4o : Performance de la perception visuelle des modèles de langage multimodaux dans la compréhension de l'activité des porcelets

L'éthologie animale est un aspect crucial de la recherche sur les animaux, et l'étiquetage du comportement animal constitue la base de l'étude du comportement animal. Ce processus implique généralement l'étiquetage de séquences vidéo avec des balises sémantiques comportementales, une tâche complexe, subjective et multimodale. Avec le développement rapide des grands modèles linguistiques multimodaux (LLMs), de nouvelles applications ont émergé pour les tâches d'interprétation du comportement animal dans les scénarios d'élevage. Cette étude évalue les capacités de perception visuelle des grands modèles linguistiques multimodaux dans la reconnaissance des activités des porcelets. Pour ce faire, nous avons créé des données de test sur les porcelets comprenant des séquences vidéo rapprochées d'individus et des séquences vidéo en plan large annotées. Ces données ont été utilisées pour évaluer la performance de quatre grands modèles linguistiques multimodaux : Video-LLaMA, MiniGPT4-Video, Video-Chat2 et GPT-4 omni (GPT-4o) dans la compréhension des activités des porcelets. Grâce à une évaluation complète selon cinq dimensions, incluant le dénombrement, la référence aux acteurs, la correspondance sémantique, la perception temporelle et la robustesse, nous avons constaté que bien que les grands modèles linguistiques multimodaux actuels nécessitent des améliorations en termes de correspondance sémantique et de perception temporelle, ils ont initialement démontré des capacités de perception visuelle pour la reconnaissance des activités animales. Notamment, GPT-4o a montré une performance exceptionnelle, avec Video-Chat2 et GPT-4o présentant une correspondance sémantique et une perception temporelle significativement meilleures dans les séquences vidéo rapprochées par rapport aux séquences en plan large. Les expériences d'évaluation initiales menées dans cette étude valident le potentiel des grands modèles linguistiques multimodaux dans la compréhension vidéo des scénarios d'élevage et fournissent de nouvelles orientations et références pour les futures recherches sur la compréhension vidéo du comportement animal. De plus, en explorant profondément l'influence des stimuli visuels sur les grands modèles linguistiques multimodaux, nous espérons améliorer la précision et l'efficacité de la reconnaissance du comportement animal dans les scénarios d'élevage grâce aux méthodes de traitement visuel humain.