2달 전

Llama2, Mistral, Gemma 및 GPT의 사실성, 독성, 편향성 및 환각 경향성 평가

David Nadeau; Mike Kroutikov; Karen McNeil; Simon Baribeau
Llama2, Mistral, Gemma 및 GPT의 사실성, 독성, 편향성 및 환각 경향성 평가
초록

이 논문에서는 기업 업무 환경에서 대형 언어 모델의 안전성을 평가하기 위한 14개의 새로운 데이터셋을 소개합니다. 모델의 안전성은 지시사항 준수 능력과 사실적, 편향되지 않은, 근거 있는 그리고 적절한 내용을 생성하는 능력에 따라 평가되었습니다. 본 연구에서는 모든 수준의 안전성에서 뛰어난 성능을 보이는 OpenAI GPT를 비교 대상으로 사용하였습니다. 오픈 소스 측면에서는 작은 규모의 모델 중 Meta Llama2가 사실성과 독성(Toxicity) 측면에서 우수한 성능을 보였지만, 환각(Hallucination) 경향이 가장 높았습니다. Mistral은 환각 경향이 가장 낮지만 독성을 잘 처리하지 못했습니다. 그러나 좁은 수직 영역에서 여러 작업과 안전성 요소를 혼합한 데이터셋에서는 잘 수행되었습니다. 최근 소개된 Google Gemini를 기반으로 하는 새로운 오픈 소스 모델인 Gemma는 전반적으로 균형 잡혀 있지만 뒤처지는 모습을 보였습니다. 다중 턴 프롬프트(Multi-turn prompts)를 사용하여 양방향 대화를 진행할 때, 오픈 소스 모델들의 안전성이 크게 저하되는 것을 확인하였습니다. OpenAI GPT 외에는 Mistral만이 다중 턴 테스트에서도 여전히 좋은 성능을 보였습니다.

Llama2, Mistral, Gemma 및 GPT의 사실성, 독성, 편향성 및 환각 경향성 평가 | 최신 연구 논문 | HyperAI초신경