HyperAIHyperAI

Command Palette

Search for a command to run...

Neural Self Talk : Compréhension des images par un questionnement et des réponses continus

Yezhou Yang Yi Li Cornelia Fermuller Yiannis Aloimonos

Résumé

Dans cet article, nous abordons le problème de la découverte continue du contenu des images en posant activement des questions basées sur les images et en répondant ensuite à ces questions. Les composants clés incluent un module de Génération de Questions Visuelles (VQG) et un module de Réponse à des Questions Visuelles (VQA), dans lesquels sont utilisés des Réseaux Neuronaux Récurents (RNN) et des Réseaux Neuronaux Convolutifs (CNN). Étant donné un ensemble de données contenant des images, des questions et leurs réponses, les deux modules sont formés simultanément, avec une différence : le VQG utilise les images comme entrée et génère les questions correspondantes comme sortie, tandis que le VQA utilise les images et les questions comme entrée pour produire les réponses correspondantes comme sortie. Nous évaluons le processus d'auto-dialogue de manière subjective en utilisant Amazon Mechanical Turk, ce qui démontre l'efficacité de la méthode proposée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Neural Self Talk : Compréhension des images par un questionnement et des réponses continus | Articles | HyperAI