17日前

USR:対話生成における非教師ありかつ参照フリーな評価指標

Shikib Mehri, Maxine Eskenazi
USR:対話生成における非教師ありかつ参照フリーな評価指標
要約

対話における意味のある自動評価指標の欠如は、オープンドメイン対話研究の進展を阻んできた。従来の言語生成評価指標は、対話モデルの評価において有効でないことが明らかになっている。このような状況を踏まえ、本論文では、対話用の非教師ありかつ参照なし評価指標「USR(UnSupervised and Reference-free evaluation metric for dialog)」を提案する。USRは、参照なしの評価指標として、非教師ありモデルを用いて対話の望ましい特性を測定する手法である。実験の結果、USRはTopical-Chat(ターン単位:0.42、システム単位:1.0)およびPersonaChat(ターン単位:0.48、システム単位:1.0)において、人間の評価と強い相関を示した。さらに、USRは対話の望ましい性質のいくつかについて、解釈可能な指標を提供することができる。

USR:対話生成における非教師ありかつ参照フリーな評価指標 | 最新論文 | HyperAI超神経