Dialogue Safety Prediction On Rt Inod
評価指標
Best-of
評価結果
このベンチマークにおける各モデルのパフォーマンス結果
比較表
モデル名 | Best-of |
---|---|
benchmarking-llama2-mistral-gemma-and-gpt-for | 0.91 |
benchmarking-llama2-mistral-gemma-and-gpt-for | 0.87 |
benchmarking-llama2-mistral-gemma-and-gpt-for | 0.91 |
benchmarking-llama2-mistral-gemma-and-gpt-for | 0.86 |
benchmarking-llama2-mistral-gemma-and-gpt-for | 0.92 |