HyperAIHyperAI

Command Palette

Search for a command to run...

Benchmarking von Llama2, Mistral, Gemma und GPT hinsichtlich Faktualität, Toxizität, Verzerrung und Neigung zu Halluzinationen

David Nadeau Mike Kroutikov Karen McNeil Simon Baribeau

Zusammenfassung

Dieses Papier stellt vierzehn neue Datensätze zur Bewertung der Sicherheit von großen Sprachmodellen im Kontext von Unternehmensaufgaben vor. Eine Methode wurde entwickelt, um die Sicherheit eines Modells zu bewerten, basierend auf dessen Fähigkeit, Anweisungen zu befolgen und faktenbasierte, unverfälschte, fundierte und angemessene Inhalte auszugeben. In dieser Studie wurde OpenAI GPT als Vergleichsmodell verwendet, da es auf allen Ebenen der Sicherheit hervorragt. Auf der Seite der quelloffenen Modelle zeichnet sich Meta Llama2 bei kleineren Modellen durch eine gute Faktualität und Toxizität aus, hat aber die höchste Neigung zur Halluzination. Mistral halluziniert am wenigsten, kann jedoch Toxizität nicht gut verarbeiten. Es erzielt gute Ergebnisse in einem Datensatz, der mehrere Aufgaben und Sicherheitsaspekte in einem spezifischen vertikalen Bereich mischt. Gemma, das neu eingeführte quellenoffene Modell auf Basis von Google Gemini, ist insgesamt ausgeglichen, liegt aber zurück. Bei fortlaufenden Dialogen (Multi-Turn-Prompts) stellen wir fest, dass die Sicherheit der quellenoffenen Modelle erheblich nachlässt. Neben OpenAI GPT ist Mistral das einzige Modell, das auch bei Multi-Turn-Tests gute Leistungen zeigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Benchmarking von Llama2, Mistral, Gemma und GPT hinsichtlich Faktualität, Toxizität, Verzerrung und Neigung zu Halluzinationen | Paper | HyperAI