HyperAIHyperAI
vor 11 Tagen

Ensemble aus MRR- und NDCG-Modellen für Visual Dialog

Idan Schwartz
Ensemble aus MRR- und NDCG-Modellen für Visual Dialog
Abstract

Die Beurteilung eines KI-Agenten, der in menschlicher Sprache kommunizieren und visuelle Inhalte verstehen kann, ist herausfordernd. Generative Metriken wie BLEU-Scores legen den Fokus auf korrekte Syntax statt auf Semantik. Daher wird häufig ein diskriminativer Ansatz verwendet, bei dem ein Agent eine Reihe von Kandidatenoptionen bewertet. Die Mean Reciprocal Rank (MRR)-Metrik bewertet die Modellleistung, indem sie die Rangordnung einer einzelnen menschengenerierten Antwort berücksichtigt. Dieser Ansatz wirft jedoch eine neue Herausforderung auf: die Mehrdeutigkeit und Synonymie von Antworten, beispielsweise semantische Äquivalenz (z. B. „yeah“ und „yes“). Um dies zu adressieren, wird die Normalized Discounted Cumulative Gain (NDCG)-Metrik eingesetzt, um die Relevanz aller korrekten Antworten durch dichte Annotationen zu erfassen. Die NDCG-Metrik begünstigt jedoch oft allgemein anwendbare unsichere Antworten wie „Ich weiß nicht“. Ein Modell zu entwickeln, das sowohl bei der MRR- als auch bei der NDCG-Metrik hervorragt, ist daher herausfordernd. Idealerweise sollte ein KI-Agent eine menschenähnliche Antwort liefern und gleichzeitig die Korrektheit jeder Antwort validieren können. Um dieses Problem zu lösen, beschreiben wir einen zweistufigen, nicht-parametrischen Ranking-Ansatz, der starke MRR- und NDCG-Modelle kombinieren kann. Mit unserem Ansatz gelingt es uns, die meisten Leistungen des Standes der Technik bei der MRR beizubehalten (70,41 % gegenüber 71,24 %) und gleichzeitig die Leistung der State-of-the-Art-Methode bei der NDCG zu erreichen (72,16 % gegenüber 75,35 %). Darüber hinaus gewann unser Ansatz die jüngste Visual Dialog 2020 Challenge. Der Quellcode ist unter https://github.com/idansc/mrr-ndcg verfügbar.

Ensemble aus MRR- und NDCG-Modellen für Visual Dialog | Neueste Forschungsarbeiten | HyperAI