vor 8 Monaten

Zusammenfassung

Multimodale Large Language Models (MLLMs) haben kürzlich große Beliebtheit erlangt. Starke kommerzielle Modelle wie ChatGPT-4V und Gemini sowie offene Quelltextmodelle wie LLaVA sind im Wesentlichen allgemeine Modelle und werden zur Lösung einer Vielzahl von Aufgaben eingesetzt, darunter auch solche im Bereich der Computer Vision. Diese neuronalen Netze verfügen über so umfangreiches allgemeines Wissen und solche starke Schließleistungsfähigkeiten, dass sie sogar in der Lage sind, Aufgaben zu bewältigen, für die sie nicht speziell trainiert wurden. Wir verglichen die Fähigkeiten der bisher leistungsstärksten MLLMs: ShareGPT4V, ChatGPT und LLaVA-Next an einem spezialisierten Aufgabenbereich der Alters- und Geschlechtsbestimmung mit unserem state-of-the-art spezialisierten Modell, MiVOLO. In diesem Artikel aktualisieren wir auch MiVOLO und geben Details sowie neue Metriken an. Dieser Vergleich hat einige interessante Ergebnisse und Erkenntnisse über die Stärken und Schwächen der beteiligten Modelle geliefert. Darüber hinaus haben wir verschiedene Ansätze zum Feinjustieren des ShareGPT4V-Modells für diese spezifische Aufgabe versucht, wobei unser Ziel war, state-of-the-art Ergebnisse in dieser besonderen Herausforderung zu erzielen. Obwohl ein solches Modell in der Produktion aufgrund seiner enormen Kosten im Vergleich zu einem spezialisierten Modell wie MiVOLO nicht praktikabel wäre, könnte es bei bestimmten Aufgaben, wie etwa der Datenaufbereitung, sehr nützlich sein.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Jenseits der Spezialisierung: Die Fähigkeiten von MLLMs bei der Schätzung von Alter und Geschlecht

Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Jenseits der Spezialisierung: Die Fähigkeiten von MLLMs bei der Schätzung von Alter und Geschlecht

Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Jenseits der Spezialisierung: Die Fähigkeiten von MLLMs bei der Schätzung von Alter und Geschlecht

Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters