17日前

オープンドメイン対話の品質に関するプロキシ指標

{Ricardo Usbeck, Jens Lehmann, Rostislav Nedelchev}
オープンドメイン対話の品質に関するプロキシ指標
要約

オープンドメイン対話の自動評価は、依然として解決されていない大きな課題である。この分野では多数の研究が行われてきたにもかかわらず、対話の品質評価には依然として人間の評価者が関与する必要がある。その結果、大規模な評価を実施することは通常、非常に高コストとなる。本研究では、一般言語理解評価(GLUE)ベンチマークで訓練された深層学習モデルを、オープンドメイン対話の品質指標として活用する方法を検討した。このアプローチの目的は、GLUEのさまざまなタスクを対話品質を評価する異なる視点として用いることで、追加の訓練データや品質の基準となる応答を必要としないようにすることである。この性質により、本手法は多様な品質指標を推論可能であり、構成要素別に分けて全体スコアを導出することができる。実験の結果、統計的に有意な相関係数最高0.7を達成した。