HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble de gradients gloutons pour une réponse visuelle aux questions robuste

Xinzhe Han Shuhui Wang Chi Su Qingming Huang Qi Tian

Résumé

Le biais linguistique constitue un problème critique dans le domaine de la réponse aux questions visuelles (VQA), où les modèles ont tendance à exploiter les biais présents dans les jeux de données pour prendre leurs décisions finales, sans tenir suffisamment compte des informations visuelles. En conséquence, ces modèles présentent une dégradation des performances sur des données hors distribution ainsi qu’une explication visuelle insuffisante. À partir d’une analyse expérimentale des méthodes existantes de VQA robuste, nous mettons en évidence deux sources du biais linguistique dans le VQA : le biais de distribution et le biais des raccourcis. Nous proposons par la suite un nouveau cadre débiaisé, appelé Greedy Gradient Ensemble (GGE), qui combine plusieurs modèles biaisés afin d’apprendre un modèle de base débaisé. Grâce à une stratégie gloutonne, GGE pousse les modèles biaisés à s’ajuster de manière excessive à la distribution biaisée des données en priorité, ce qui incite le modèle de base à accorder davantage d’attention aux exemples particulièrement difficiles à traiter par les modèles biaisés. Les expérimentations montrent que notre méthode exploite de manière plus efficace les informations visuelles et atteint des performances de pointe sur le diagnostic du jeu de données VQA-CP, sans nécessiter d’annotations supplémentaires.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp