HyperAIHyperAI

Command Palette

Search for a command to run...

Au-delà de la spécialisation : Évaluation des capacités des MLLMs dans l'estimation de l'âge et du genre

Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh

Résumé

Les Modèles Linguistiques Multimodaux à Grande Échelle (MLLMs) ont récemment connu une popularité considérable. Des modèles commerciaux puissants comme ChatGPT-4V et Gemini, ainsi que des modèles open-source tels que LLaVA, sont essentiellement des modèles polyvalents appliqués pour résoudre une grande variété de tâches, y compris celles liées à la vision par ordinateur. Ces réseaux neuronaux possèdent des connaissances générales et des capacités de raisonnement si robustes qu'ils se sont avérés capables de travailler même sur des tâches pour lesquelles ils n'ont pas été spécifiquement formés. Nous avons comparé les capacités des MLLMs les plus puissants actuellement disponibles : ShareGPT4V, ChatGPT et LLaVA-Next, dans une tâche spécialisée d'estimation de l'âge et du genre, en utilisant notre modèle spécialisé d'avant-garde, MiVOLO. Nous avons également mis à jour MiVOLO et fournissons dans cet article des détails ainsi que de nouvelles métriques. Cette comparaison a produit certains résultats et observations intéressants concernant les forces et les faiblesses des modèles participants. De plus, nous avons tenté diverses méthodes pour ajuster finement le modèle ShareGPT4V à cette tâche spécifique, visant à obtenir des résultats d'avant-garde dans ce défi particulier. Bien que l'utilisation d'un tel modèle ne soit pas pratique en production, étant donné son coût extrêmement élevé par rapport à un modèle spécialisé comme MiVOLO, il pourrait être très utile dans certaines tâches, telles que l'annotation de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp