6ヶ月前

監視付き微調整

アプローチ／フレームワーク

マルチモーダル

Shikib Mehri Maxine Eskenazi

概要

対話における意味のある自動評価指標の欠如は、オープンドメイン対話研究の進展を阻んできた。従来の言語生成評価指標は、対話モデルの評価において有効でないことが明らかになっている。このような状況を踏まえ、本論文では、対話用の非教師ありかつ参照なし評価指標「USR（UnSupervised and Reference-free evaluation metric for dialog）」を提案する。USRは、参照なしの評価指標として、非教師ありモデルを用いて対話の望ましい特性を測定する手法である。実験の結果、USRはTopical-Chat（ターン単位：0.42、システム単位：1.0）およびPersonaChat（ターン単位：0.48、システム単位：1.0）において、人間の評価と強い相関を示した。さらに、USRは対話の望ましい性質のいくつかについて、解釈可能な指標を提供することができる。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

監視付き微調整

アプローチ／フレームワーク

マルチモーダル

Shikib Mehri Maxine Eskenazi

概要

対話における意味のある自動評価指標の欠如は、オープンドメイン対話研究の進展を阻んできた。従来の言語生成評価指標は、対話モデルの評価において有効でないことが明らかになっている。このような状況を踏まえ、本論文では、対話用の非教師ありかつ参照なし評価指標「USR（UnSupervised and Reference-free evaluation metric for dialog）」を提案する。USRは、参照なしの評価指標として、非教師ありモデルを用いて対話の望ましい特性を測定する手法である。実験の結果、USRはTopical-Chat（ターン単位：0.42、システム単位：1.0）およびPersonaChat（ターン単位：0.48、システム単位：1.0）において、人間の評価と強い相関を示した。さらに、USRは対話の望ましい性質のいくつかについて、解釈可能な指標を提供することができる。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

USR：対話生成における非教師ありかつ参照フリーな評価指標 | 記事 | HyperAI超神経