8ヶ月前

ベンチマーク

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

David Nadeau Mike Kroutikov Karen McNeil Simon Baribeau

概要

本論文では、企業タスクの文脈における大規模言語モデル（Large Language Models）の安全性評価のために14の新しいデータセットを紹介します。モデルの安全性は、指示に従い、事実に基づいた、偏りのない、根拠のある、適切なコンテンツを出力する能力によって決定される方法が考案されました。本研究では、OpenAIのGPTが安全性のすべてのレベルで優れているため、比較対象として使用しました。オープンソース側では、小規模モデルにおいてMeta Llama2は事実性と毒性に対して良好な性能を示しますが、幻覚（hallucination）の傾向が最も高いです。Mistralは幻覚が最少ですが、毒性への対応が十分ではありません。しかし、特定の垂直ドメインで複数のタスクと安全性ベクトルを混在させたデータセットでは良好な性能を発揮します。新たに導入されたGoogle Geminiに基づくオープンソースモデルであるGemmaは全体的にバランスが取れていますが、後れを取っています。また、往復会話（multi-turn prompts）を行う場合、オープンソースモデルの安全性は大幅に低下することがわかりました。OpenAIのGPT以外で多ターンテストでも依然として良好な性能を示したのはMistralのみでした。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ベンチマーク

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

David Nadeau Mike Kroutikov Karen McNeil Simon Baribeau

概要

本論文では、企業タスクの文脈における大規模言語モデル（Large Language Models）の安全性評価のために14の新しいデータセットを紹介します。モデルの安全性は、指示に従い、事実に基づいた、偏りのない、根拠のある、適切なコンテンツを出力する能力によって決定される方法が考案されました。本研究では、OpenAIのGPTが安全性のすべてのレベルで優れているため、比較対象として使用しました。オープンソース側では、小規模モデルにおいてMeta Llama2は事実性と毒性に対して良好な性能を示しますが、幻覚（hallucination）の傾向が最も高いです。Mistralは幻覚が最少ですが、毒性への対応が十分ではありません。しかし、特定の垂直ドメインで複数のタスクと安全性ベクトルを混在させたデータセットでは良好な性能を発揮します。新たに導入されたGoogle Geminiに基づくオープンソースモデルであるGemmaは全体的にバランスが取れていますが、後れを取っています。また、往復会話（multi-turn prompts）を行う場合、オープンソースモデルの安全性は大幅に低下することがわかりました。OpenAIのGPT以外で多ターンテストでも依然として良好な性能を示したのはMistralのみでした。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Llama2、Mistral、GemmaおよびGPTの事実性、毒性、偏見および幻覚傾向のベンチマーキング | 記事 | HyperAI超神経