HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble de modèles MRR et NDCG pour le dialogue visuel

Idan Schwartz

Résumé

Évaluer un agent intelligent capable de converser dans une langue humaine et de comprendre le contenu visuel pose des défis notables. Les métriques basées sur la génération, telles que les scores BLEU, privilégient la syntaxe correcte plutôt que la sémantique. Par conséquent, une approche discriminative est fréquemment adoptée, dans laquelle un agent classe un ensemble d’options candidates. La métrique Mean Reciprocal Rank (MRR) évalue les performances du modèle en tenant compte du rang d’une réponse humaine unique. Toutefois, cette approche soulève un nouveau défi : l’ambiguïté et la synonymie des réponses, par exemple l’équivalence sémantique (comme « yeah » et « yes »). Pour y remédier, la métrique NDCG (Normalized Discounted Cumulative Gain) a été utilisée afin de capturer la pertinence de toutes les réponses correctes grâce à des annotations denses. Toutefois, la métrique NDCG favorise souvent des réponses incertaines, généralement applicables, telles que « I don’t know ». Concevoir un modèle performant à la fois sur les métriques MRR et NDCG est donc un défi majeur. Idéalement, un agent intelligent devrait fournir une réponse proche de celle d’un humain et valider la correction de toute réponse possible. Pour relever ce défi, nous proposons une approche non paramétrique en deux étapes permettant de combiner efficacement des modèles forts en MRR et en NDCG. Grâce à cette méthode, nous parvenons à préserver la quasi-totalité des performances de pointe en MRR (70,41 % contre 71,24 %) et en NDCG (72,16 % contre 75,35 %). En outre, notre approche a remporté le défi Visual Dialog 2020 récent. Le code source est disponible à l’adresse suivante : https://github.com/idansc/mrr-ndcg.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ensemble de modèles MRR et NDCG pour le dialogue visuel | Articles | HyperAI