Dialogue Safety Prediction On Rt Inod

Métriques

Best-of

Résultats

Résultats de performance de divers modèles sur ce benchmark

		Paper Title
Baseline	0.92	Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations
Gemma	0.91	Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations
GPT-4	0.91	Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations
Mistral	0.87	Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations
Llama2	0.86	Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations

0 of 5 row(s) selected.