HyperAIHyperAI

Command Palette

Search for a command to run...

GPT-4o : Performance de la perception visuelle des modèles de langage multimodaux dans la compréhension de l'activité des porcelets

Yiqi Wu Xiaodan Hu Ziming Fu Siling Zhou Jiangong Li

Résumé

L'éthologie animale est un aspect crucial de la recherche sur les animaux, et l'étiquetage du comportement animal constitue la base de l'étude du comportement animal. Ce processus implique généralement l'étiquetage de séquences vidéo avec des balises sémantiques comportementales, une tâche complexe, subjective et multimodale. Avec le développement rapide des grands modèles linguistiques multimodaux (LLMs), de nouvelles applications ont émergé pour les tâches d'interprétation du comportement animal dans les scénarios d'élevage. Cette étude évalue les capacités de perception visuelle des grands modèles linguistiques multimodaux dans la reconnaissance des activités des porcelets. Pour ce faire, nous avons créé des données de test sur les porcelets comprenant des séquences vidéo rapprochées d'individus et des séquences vidéo en plan large annotées. Ces données ont été utilisées pour évaluer la performance de quatre grands modèles linguistiques multimodaux : Video-LLaMA, MiniGPT4-Video, Video-Chat2 et GPT-4 omni (GPT-4o) dans la compréhension des activités des porcelets. Grâce à une évaluation complète selon cinq dimensions, incluant le dénombrement, la référence aux acteurs, la correspondance sémantique, la perception temporelle et la robustesse, nous avons constaté que bien que les grands modèles linguistiques multimodaux actuels nécessitent des améliorations en termes de correspondance sémantique et de perception temporelle, ils ont initialement démontré des capacités de perception visuelle pour la reconnaissance des activités animales. Notamment, GPT-4o a montré une performance exceptionnelle, avec Video-Chat2 et GPT-4o présentant une correspondance sémantique et une perception temporelle significativement meilleures dans les séquences vidéo rapprochées par rapport aux séquences en plan large. Les expériences d'évaluation initiales menées dans cette étude valident le potentiel des grands modèles linguistiques multimodaux dans la compréhension vidéo des scénarios d'élevage et fournissent de nouvelles orientations et références pour les futures recherches sur la compréhension vidéo du comportement animal. De plus, en explorant profondément l'influence des stimuli visuels sur les grands modèles linguistiques multimodaux, nous espérons améliorer la précision et l'efficacité de la reconnaissance du comportement animal dans les scénarios d'élevage grâce aux méthodes de traitement visuel humain.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp