il y a 6 mois

Résumé

La génération de légendes d’images en tenant compte de l’intention de l’utilisateur est une nécessité émergente. Le jeu de données Localized Narratives, récemment publié, introduit les trajectoires de souris comme entrée supplémentaire dans la tâche de génération de légendes d’images, offrant ainsi une méthode intuitive et efficace pour contrôler les éléments à décrire dans l’image. Toutefois, la manière dont ces trajectoires peuvent être exploitées de manière efficace afin d’améliorer à la fois la qualité de génération et la contrôlabilité reste un domaine en pleine exploration. Ce papier vise à résoudre ce problème en proposant un nouveau modèle appelé LoopCAG, qui relie de manière cyclique les contraintes contrastives et la guidance par attention, en intégrant explicitement des contraintes spatiales et temporelles au processus de génération. Plus précisément, chaque phrase générée est alignée temporellement à la séquence de trajectoire correspondante grâce à une stratégie d’apprentissage contrastif. En outre, chaque mot généré est supervisé pour s’attarder sur les objets visuels corrects sous une guidance spatiale heuristique. Les résultats expérimentaux complets démontrent que notre modèle LoopCAG apprend une correspondance améliorée entre les trois modalités (vision, langage, trajectoires) et atteint des performances SOTA sur la tâche de génération de légendes contrôlées par trajectoires. En outre, la contrôlabilité et l’explicabilité de LoopCAG sont validées par une analyse de la sensibilité spatiale et temporelle au cours du processus de génération.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Shuai Ma Nan Duan Ming Zhou Huaishao Luo Lei Ji Kun Yan

Résumé

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Shuai Ma Nan Duan Ming Zhou Huaishao Luo Lei Ji Kun Yan

Résumé

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Contrôle de la génération de légendes d’images de manière spatiale et temporelle

Shuai Ma Nan Duan Ming Zhou Huaishao Luo Lei Ji Kun Yan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Contrôle de la génération de légendes d’images de manière spatiale et temporelle

Shuai Ma Nan Duan Ming Zhou Huaishao Luo Lei Ji Kun Yan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Contrôle de la génération de légendes d’images de manière spatiale et temporelle

Shuai Ma Nan Duan Ming Zhou Huaishao Luo Lei Ji Kun Yan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters