SocialGPT : Utilisation des LLMs pour le raisonnement sur les relations sociales par optimisation segmentée gloutonne

La raisonner les relations sociales vise à identifier des catégories de relations telles que amis, conjoints et collègues à partir d'images. Bien que les méthodes actuelles adoptent le paradigme de l'entraînement d'un réseau dédié de bout en bout en utilisant des données d'images étiquetées, elles sont limitées en termes de généralisation et d'interprétabilité. Pour remédier à ces problèmes, nous présentons tout d'abord un cadre simple mais bien conçu nommé {ame}, qui combine la capacité perceptive des modèles fondamentaux de vision (VFMs) et la capacité de raisonnement des grands modèles linguistiques (LLMs) au sein d'un cadre modulaire, offrant une base solide pour la reconnaissance des relations sociales. Plus précisément, nous instruisons les VFMs à traduire le contenu des images en un récit social textuel, puis nous utilisons les LLMs pour le raisonnement basé sur le texte. {ame} introduit des principes de conception systématiques pour adapter séparément les VFMs et les LLMs et combler leurs écarts. Sans entraînement supplémentaire du modèle, il obtient des résultats compétitifs en zero-shot sur deux bases de données tout en offrant des réponses interprétables, car les LLMs peuvent générer des explications linguistiques pour les décisions prises. Le processus manuel de conception des prompts pour les LLMs lors de la phase de raisonnement est fastidieux et une méthode d'optimisation automatique des prompts est souhaitée. Comme nous transformons essentiellement une tâche de classification visuelle en une tâche générative pour les LLMs, l'optimisation automatique des prompts rencontre un problème unique d'optimisation de prompts longs. Pour résoudre ce problème, nous proposons également l'Optimisation Gourmande des Prompts par Segments (GSPO), qui effectue une recherche gourmande en utilisant des informations de gradient au niveau segmentaire. Les résultats expérimentaux montrent que GSPO améliore considérablement les performances, et notre méthode se généralise également à différents styles d'images. Le code est disponible sur https://github.com/Mengzibin/SocialGPT.