11日前

視覚対話におけるMRRおよびNDCGモデルのアンサンブル

Idan Schwartz
視覚対話におけるMRRおよびNDCGモデルのアンサンブル
要約

人間の言語で会話を行い、視覚的コンテンツを理解できるAIエージェントの評価は、困難を伴う。生成系の指標(例:BLEUスコア)は文法的正しさを意味的正しさよりも重視するため、通常は選択肢の集合に対してエージェントが順位付けを行う判別型アプローチが用いられる。平均逆順位(Mean Reciprocal Rank; MRR)は、人間が提示した正解の順位を考慮してモデルの性能を評価する指標である。しかしながら、このアプローチには新たな課題が生じる。すなわち、回答の曖昧性や同義語の存在(例:「yeah」と「yes」の意味的同等性)である。これを解決するため、正確な回答すべての関連性を高密度なアノテーションを通じて捉えるために、正規化割引累積利益(Normalized Discounted Cumulative Gain; NDCG)指標が用いられている。しかし、NDCGは一般的に適用可能な曖昧な回答(例:「わかりません」)を好む傾向がある。MRRとNDCGの両方の指標で優れた性能を発揮するモデルの設計は極めて困難である。理想的には、AIエージェントは人間らしい回答を提示し、あらゆる回答の正しさを検証できるべきである。この課題に対処するため、我々は強力なMRRモデルとNDCGモデルを統合可能な2段階非パラメトリック順位付け手法を提案する。本手法を用いることで、MRRの最新技術水準(70.41% vs. 71.24%)をほぼ維持しつつ、NDCGの最新技術水準(72.16% vs. 75.35%)を達成した。さらに、本手法は最近のVisual Dialog 2020チャレンジで優勝を収めた。ソースコードは以下のURLで公開されている:https://github.com/idansc/mrr-ndcg。

視覚対話におけるMRRおよびNDCGモデルのアンサンブル | 最新論文 | HyperAI超神経