HyperAIHyperAI

Command Palette

Search for a command to run...

GPT-4o: Visuelle Wahrnehmungsleistung von multimodalen großen Sprachmodellen bei der Aktivitätsverstehensanalyse von Ferkeln

Yiqi Wu Xiaodan Hu Ziming Fu Siling Zhou Jiangong Li

Zusammenfassung

Die Tierethologie ist ein entscheidender Aspekt der Tierforschung, und die Kategorisierung des tierischen Verhaltens bildet die Grundlage für dessen Studium. Dieser Prozess beinhaltet in der Regel das Beschriften von Videosequenzen mit semantischen Verhaltenskennzeichnungen, eine Aufgabe, die komplex, subjektiv und multimodal ist. Mit der raschen Entwicklung multimodaler großer Sprachmodelle (LLMs) sind neue Anwendungen für Aufgaben zur Verhaltensanalyse von Nutztieren entstanden. Diese Studie bewertet die visuellen Wahrnehmungsfähigkeiten multimodaler LLMs bei der Aktivitätserkennung von Tieren. Dazu haben wir Testdaten für Ferkel erstellt, die aus Nahaufnahmen einzelner Ferkel und annotierten Gesamtaufnahmen bestehen. Diese Daten wurden verwendet, um die Leistung von vier multimodalen LLMs – Video-LLaMA, MiniGPT4-Video, Video-Chat2 und GPT-4 omni (GPT-4o) – bei der Aktivitätsanalyse von Ferkeln zu bewerten. Durch eine umfassende Bewertung in fünf Dimensionen, einschließlich Zählen, Akteurbezug, semantischer Korrespondenz, Zeitwahrnehmung und Robustheit, stellten wir fest, dass obwohl aktuelle multimodale LLMs Verbesserungen in Bezug auf semantische Korrespondenz und Zeitwahrnehmung benötigen, sie zunächst visuelle Wahrnehmungsfähigkeiten zur Aktivitätserkennung von Tieren gezeigt haben. Bemerkenswert war insbesondere die herausragende Leistung von GPT-4o; sowohl Video-Chat2 als auch GPT-4o zeigten in den Nahaufnahmen im Vergleich zu den Gesamtaufnahmen erheblich bessere semantische Korrespondenz und Zeitwahrnehmung. Die anfänglichen Evaluationsversuche dieser Studie bestätigen das Potenzial multimodaler großer Sprachmodelle für die Videobearbeitung in Nutztierszenarien und bieten neue Richtlinien und Referenzen für zukünftige Forschungen zur Verhaltensanalyse von Tieren auf Videobasis. Darüber hinaus erwarten wir durch eine tiefgehende Untersuchung des Einflusses visueller Anregungen auf multimodale große Sprachmodelle eine Steigerung der Genauigkeit und Effizienz der Verhaltenserfassung von Nutztieren durch menschliche visuelle Verarbeitungsverfahren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp