HyperAIHyperAI

Command Palette

Search for a command to run...

SocialGPT : Utilisation des LLMs pour le raisonnement sur les relations sociales par optimisation segmentée gloutonne

Wanhua Li Zibin Meng Jiawei Zhou Donglai Wei Chuang Gan Hanspeter Pfister

Résumé

La raisonner les relations sociales vise à identifier des catégories de relations telles que amis, conjoints et collègues à partir d'images. Bien que les méthodes actuelles adoptent le paradigme de l'entraînement d'un réseau dédié de bout en bout en utilisant des données d'images étiquetées, elles sont limitées en termes de généralisation et d'interprétabilité. Pour remédier à ces problèmes, nous présentons tout d'abord un cadre simple mais bien conçu nommé {ame}, qui combine la capacité perceptive des modèles fondamentaux de vision (VFMs) et la capacité de raisonnement des grands modèles linguistiques (LLMs) au sein d'un cadre modulaire, offrant une base solide pour la reconnaissance des relations sociales. Plus précisément, nous instruisons les VFMs à traduire le contenu des images en un récit social textuel, puis nous utilisons les LLMs pour le raisonnement basé sur le texte. {ame} introduit des principes de conception systématiques pour adapter séparément les VFMs et les LLMs et combler leurs écarts. Sans entraînement supplémentaire du modèle, il obtient des résultats compétitifs en zero-shot sur deux bases de données tout en offrant des réponses interprétables, car les LLMs peuvent générer des explications linguistiques pour les décisions prises. Le processus manuel de conception des prompts pour les LLMs lors de la phase de raisonnement est fastidieux et une méthode d'optimisation automatique des prompts est souhaitée. Comme nous transformons essentiellement une tâche de classification visuelle en une tâche générative pour les LLMs, l'optimisation automatique des prompts rencontre un problème unique d'optimisation de prompts longs. Pour résoudre ce problème, nous proposons également l'Optimisation Gourmande des Prompts par Segments (GSPO), qui effectue une recherche gourmande en utilisant des informations de gradient au niveau segmentaire. Les résultats expérimentaux montrent que GSPO améliore considérablement les performances, et notre méthode se généralise également à différents styles d'images. Le code est disponible sur https://github.com/Mengzibin/SocialGPT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SocialGPT : Utilisation des LLMs pour le raisonnement sur les relations sociales par optimisation segmentée gloutonne | Articles | HyperAI