Benchmarking von Llama2, Mistral, Gemma und GPT hinsichtlich Faktualität, Toxizität, Verzerrung und Neigung zu Halluzinationen

Dieses Papier stellt vierzehn neue Datensätze zur Bewertung der Sicherheit von großen Sprachmodellen im Kontext von Unternehmensaufgaben vor. Eine Methode wurde entwickelt, um die Sicherheit eines Modells zu bewerten, basierend auf dessen Fähigkeit, Anweisungen zu befolgen und faktenbasierte, unverfälschte, fundierte und angemessene Inhalte auszugeben. In dieser Studie wurde OpenAI GPT als Vergleichsmodell verwendet, da es auf allen Ebenen der Sicherheit hervorragt. Auf der Seite der quelloffenen Modelle zeichnet sich Meta Llama2 bei kleineren Modellen durch eine gute Faktualität und Toxizität aus, hat aber die höchste Neigung zur Halluzination. Mistral halluziniert am wenigsten, kann jedoch Toxizität nicht gut verarbeiten. Es erzielt gute Ergebnisse in einem Datensatz, der mehrere Aufgaben und Sicherheitsaspekte in einem spezifischen vertikalen Bereich mischt. Gemma, das neu eingeführte quellenoffene Modell auf Basis von Google Gemini, ist insgesamt ausgeglichen, liegt aber zurück. Bei fortlaufenden Dialogen (Multi-Turn-Prompts) stellen wir fest, dass die Sicherheit der quellenoffenen Modelle erheblich nachlässt. Neben OpenAI GPT ist Mistral das einzige Modell, das auch bei Multi-Turn-Tests gute Leistungen zeigt.