Au-delà de la spécialisation : Évaluation des capacités des MLLMs dans l'estimation de l'âge et du genre

Les Modèles Linguistiques Multimodaux à Grande Échelle (MLLMs) ont récemment connu une popularité considérable. Des modèles commerciaux puissants comme ChatGPT-4V et Gemini, ainsi que des modèles open-source tels que LLaVA, sont essentiellement des modèles polyvalents appliqués pour résoudre une grande variété de tâches, y compris celles liées à la vision par ordinateur. Ces réseaux neuronaux possèdent des connaissances générales et des capacités de raisonnement si robustes qu'ils se sont avérés capables de travailler même sur des tâches pour lesquelles ils n'ont pas été spécifiquement formés. Nous avons comparé les capacités des MLLMs les plus puissants actuellement disponibles : ShareGPT4V, ChatGPT et LLaVA-Next, dans une tâche spécialisée d'estimation de l'âge et du genre, en utilisant notre modèle spécialisé d'avant-garde, MiVOLO. Nous avons également mis à jour MiVOLO et fournissons dans cet article des détails ainsi que de nouvelles métriques. Cette comparaison a produit certains résultats et observations intéressants concernant les forces et les faiblesses des modèles participants. De plus, nous avons tenté diverses méthodes pour ajuster finement le modèle ShareGPT4V à cette tâche spécifique, visant à obtenir des résultats d'avant-garde dans ce défi particulier. Bien que l'utilisation d'un tel modèle ne soit pas pratique en production, étant donné son coût extrêmement élevé par rapport à un modèle spécialisé comme MiVOLO, il pourrait être très utile dans certaines tâches, telles que l'annotation de données.