il y a 8 mois

Résumé

La raisonner les relations sociales vise à identifier des catégories de relations telles que amis, conjoints et collègues à partir d'images. Bien que les méthodes actuelles adoptent le paradigme de l'entraînement d'un réseau dédié de bout en bout en utilisant des données d'images étiquetées, elles sont limitées en termes de généralisation et d'interprétabilité. Pour remédier à ces problèmes, nous présentons tout d'abord un cadre simple mais bien conçu nommé {ame}, qui combine la capacité perceptive des modèles fondamentaux de vision (VFMs) et la capacité de raisonnement des grands modèles linguistiques (LLMs) au sein d'un cadre modulaire, offrant une base solide pour la reconnaissance des relations sociales. Plus précisément, nous instruisons les VFMs à traduire le contenu des images en un récit social textuel, puis nous utilisons les LLMs pour le raisonnement basé sur le texte. {ame} introduit des principes de conception systématiques pour adapter séparément les VFMs et les LLMs et combler leurs écarts. Sans entraînement supplémentaire du modèle, il obtient des résultats compétitifs en zero-shot sur deux bases de données tout en offrant des réponses interprétables, car les LLMs peuvent générer des explications linguistiques pour les décisions prises. Le processus manuel de conception des prompts pour les LLMs lors de la phase de raisonnement est fastidieux et une méthode d'optimisation automatique des prompts est souhaitée. Comme nous transformons essentiellement une tâche de classification visuelle en une tâche générative pour les LLMs, l'optimisation automatique des prompts rencontre un problème unique d'optimisation de prompts longs. Pour résoudre ce problème, nous proposons également l'Optimisation Gourmande des Prompts par Segments (GSPO), qui effectue une recherche gourmande en utilisant des informations de gradient au niveau segmentaire. Les résultats expérimentaux montrent que GSPO améliore considérablement les performances, et notre méthode se généralise également à différents styles d'images. Le code est disponible sur https://github.com/Mengzibin/SocialGPT.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

LLM

Multimodal

Reconnaissance D'images

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Wanhua Li Zibin Meng Jiawei Zhou Donglai Wei Chuang Gan Hanspeter Pfister

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

LLM

Multimodal

Reconnaissance D'images

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Wanhua Li Zibin Meng Jiawei Zhou Donglai Wei Chuang Gan Hanspeter Pfister

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

SocialGPT : Utilisation des LLMs pour le raisonnement sur les relations sociales par optimisation segmentée gloutonne

Wanhua Li Zibin Meng Jiawei Zhou Donglai Wei Chuang Gan Hanspeter Pfister

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SocialGPT : Utilisation des LLMs pour le raisonnement sur les relations sociales par optimisation segmentée gloutonne

Wanhua Li Zibin Meng Jiawei Zhou Donglai Wei Chuang Gan Hanspeter Pfister

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SocialGPT : Utilisation des LLMs pour le raisonnement sur les relations sociales par optimisation segmentée gloutonne

Wanhua Li Zibin Meng Jiawei Zhou Donglai Wei Chuang Gan Hanspeter Pfister

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters