il y a 16 jours

Ensemble de modèles MRR et NDCG pour le dialogue visuel

Idan Schwartz

Résumé

Évaluer un agent intelligent capable de converser dans une langue humaine et de comprendre le contenu visuel pose des défis notables. Les métriques basées sur la génération, telles que les scores BLEU, privilégient la syntaxe correcte plutôt que la sémantique. Par conséquent, une approche discriminative est fréquemment adoptée, dans laquelle un agent classe un ensemble d’options candidates. La métrique Mean Reciprocal Rank (MRR) évalue les performances du modèle en tenant compte du rang d’une réponse humaine unique. Toutefois, cette approche soulève un nouveau défi : l’ambiguïté et la synonymie des réponses, par exemple l’équivalence sémantique (comme « yeah » et « yes »). Pour y remédier, la métrique NDCG (Normalized Discounted Cumulative Gain) a été utilisée afin de capturer la pertinence de toutes les réponses correctes grâce à des annotations denses. Toutefois, la métrique NDCG favorise souvent des réponses incertaines, généralement applicables, telles que « I don’t know ». Concevoir un modèle performant à la fois sur les métriques MRR et NDCG est donc un défi majeur. Idéalement, un agent intelligent devrait fournir une réponse proche de celle d’un humain et valider la correction de toute réponse possible. Pour relever ce défi, nous proposons une approche non paramétrique en deux étapes permettant de combiner efficacement des modèles forts en MRR et en NDCG. Grâce à cette méthode, nous parvenons à préserver la quasi-totalité des performances de pointe en MRR (70,41 % contre 71,24 %) et en NDCG (72,16 % contre 75,35 %). En outre, notre approche a remporté le défi Visual Dialog 2020 récent. Le code source est disponible à l’adresse suivante : https://github.com/idansc/mrr-ndcg.