17日前

MDD-Eval:拡張データにおける自己学習による多ドメイン対話評価

Chen Zhang, Luis Fernando D&#39, Haro, Thomas Friedrichs, Haizhou Li
MDD-Eval:拡張データにおける自己学習による多ドメイン対話評価
要約

チャットボットは、一般的な会話や知識交換、キャラクターに基づく会話など、さまざまな領域において人間らしい会話を行うことを目的として設計されている。こうした対話エージェントの品質を測定するためには、対話評価者(dialogue evaluator)もまた、複数の領域にわたって評価を行うことが求められる。しかし、現在の最先端の自動対話評価指標(Automatic Dialogue Evaluation Metrics, ADMs)の多くは、多領域評価を想定して設計されていない。この問題に対処するため、我々は汎用的かつ堅牢なフレームワーク「MDD-Eval」の設計を試みた。具体的には、まず人間によるアノテーションデータを用いて教師評価者(teacher evaluator)を訓練し、特定の領域において優れた対話応答と劣った応答を区別する評価能力を習得させた。その後、教師評価者がアノテーションした多領域データを用いて自己学習(self-training)戦略を採用し、新たな評価者を訓練することで、複数の領域にわたる一般化能力を向上させた。MDD-Evalは、6つの対話評価ベンチマークで広範に評価された結果、すべてのベンチマークにおける平均Spearman相関スコアにおいて、最先端のADMよりも絶対的な改善として7%の向上を達成し、優れた性能を示した。

MDD-Eval:拡張データにおける自己学習による多ドメイン対話評価 | 最新論文 | HyperAI超神経