HyperAIHyperAI
vor 2 Monaten

Jenseits der Spezialisierung: Die Fähigkeiten von MLLMs bei der Schätzung von Alter und Geschlecht

Kuprashevich, Maksim ; Alekseenko, Grigorii ; Tolstykh, Irina
Jenseits der Spezialisierung: Die Fähigkeiten von MLLMs bei der Schätzung von Alter und Geschlecht
Abstract

Multimodale Large Language Models (MLLMs) haben kürzlich große Beliebtheit erlangt. Starke kommerzielle Modelle wie ChatGPT-4V und Gemini sowie offene Quelltextmodelle wie LLaVA sind im Wesentlichen allgemeine Modelle und werden zur Lösung einer Vielzahl von Aufgaben eingesetzt, darunter auch solche im Bereich der Computer Vision. Diese neuronalen Netze verfügen über so umfangreiches allgemeines Wissen und solche starke Schließleistungsfähigkeiten, dass sie sogar in der Lage sind, Aufgaben zu bewältigen, für die sie nicht speziell trainiert wurden. Wir verglichen die Fähigkeiten der bisher leistungsstärksten MLLMs: ShareGPT4V, ChatGPT und LLaVA-Next an einem spezialisierten Aufgabenbereich der Alters- und Geschlechtsbestimmung mit unserem state-of-the-art spezialisierten Modell, MiVOLO. In diesem Artikel aktualisieren wir auch MiVOLO und geben Details sowie neue Metriken an. Dieser Vergleich hat einige interessante Ergebnisse und Erkenntnisse über die Stärken und Schwächen der beteiligten Modelle geliefert. Darüber hinaus haben wir verschiedene Ansätze zum Feinjustieren des ShareGPT4V-Modells für diese spezifische Aufgabe versucht, wobei unser Ziel war, state-of-the-art Ergebnisse in dieser besonderen Herausforderung zu erzielen. Obwohl ein solches Modell in der Produktion aufgrund seiner enormen Kosten im Vergleich zu einem spezialisierten Modell wie MiVOLO nicht praktikabel wäre, könnte es bei bestimmten Aufgaben, wie etwa der Datenaufbereitung, sehr nützlich sein.