GPT-4o: Visuelle Wahrnehmungsleistung von multimodalen großen Sprachmodellen bei der Aktivitätsverstehensanalyse von Ferkeln

Die Tierethologie ist ein entscheidender Aspekt der Tierforschung, und die Kategorisierung des tierischen Verhaltens bildet die Grundlage für dessen Studium. Dieser Prozess beinhaltet in der Regel das Beschriften von Videosequenzen mit semantischen Verhaltenskennzeichnungen, eine Aufgabe, die komplex, subjektiv und multimodal ist. Mit der raschen Entwicklung multimodaler großer Sprachmodelle (LLMs) sind neue Anwendungen für Aufgaben zur Verhaltensanalyse von Nutztieren entstanden. Diese Studie bewertet die visuellen Wahrnehmungsfähigkeiten multimodaler LLMs bei der Aktivitätserkennung von Tieren. Dazu haben wir Testdaten für Ferkel erstellt, die aus Nahaufnahmen einzelner Ferkel und annotierten Gesamtaufnahmen bestehen. Diese Daten wurden verwendet, um die Leistung von vier multimodalen LLMs – Video-LLaMA, MiniGPT4-Video, Video-Chat2 und GPT-4 omni (GPT-4o) – bei der Aktivitätsanalyse von Ferkeln zu bewerten. Durch eine umfassende Bewertung in fünf Dimensionen, einschließlich Zählen, Akteurbezug, semantischer Korrespondenz, Zeitwahrnehmung und Robustheit, stellten wir fest, dass obwohl aktuelle multimodale LLMs Verbesserungen in Bezug auf semantische Korrespondenz und Zeitwahrnehmung benötigen, sie zunächst visuelle Wahrnehmungsfähigkeiten zur Aktivitätserkennung von Tieren gezeigt haben. Bemerkenswert war insbesondere die herausragende Leistung von GPT-4o; sowohl Video-Chat2 als auch GPT-4o zeigten in den Nahaufnahmen im Vergleich zu den Gesamtaufnahmen erheblich bessere semantische Korrespondenz und Zeitwahrnehmung. Die anfänglichen Evaluationsversuche dieser Studie bestätigen das Potenzial multimodaler großer Sprachmodelle für die Videobearbeitung in Nutztierszenarien und bieten neue Richtlinien und Referenzen für zukünftige Forschungen zur Verhaltensanalyse von Tieren auf Videobasis. Darüber hinaus erwarten wir durch eine tiefgehende Untersuchung des Einflusses visueller Anregungen auf multimodale große Sprachmodelle eine Steigerung der Genauigkeit und Effizienz der Verhaltenserfassung von Nutztieren durch menschliche visuelle Verarbeitungsverfahren.