HyperAIHyperAI

Command Palette

Search for a command to run...

Évaluation comparative de Llama2, Mistral, Gemma et GPT en termes de véracité, toxicité, biais et propension aux hallucinations

David Nadeau Mike Kroutikov Karen McNeil Simon Baribeau

Résumé

Ce document présente quatorze nouveaux ensembles de données destinés à évaluer la sécurité des grands modèles linguistiques dans le contexte des tâches d'entreprise. Une méthode a été élaborée pour mesurer la sécurité d'un modèle, définie par sa capacité à suivre les instructions et à produire un contenu factuel, non biaisé, ancré et approprié. Dans cette recherche, nous avons utilisé le modèle OpenAI GPT comme point de référence, car il excelle à tous les niveaux de sécurité. Du côté open source, pour les modèles plus petits, Meta Llama2 se distingue par sa fiabilité factuelle et son faible niveau de toxicité, mais il a la plus forte propension à l'hallucination. Mistral hallucine le moins mais ne gère pas bien la toxicité. Il performe bien dans un ensemble de données mêlant plusieurs tâches et vecteurs de sécurité dans un domaine vertical restreint. Gemma, le nouveau modèle open source basé sur Google Gemini, est généralement équilibré mais reste en retrait. Lorsqu'il s'agit d'engager une conversation interactive (prompts multi-tours), nous constatons que la sécurité des modèles open source se dégrade considérablement. À l'exception du GPT d'OpenAI, Mistral est le seul modèle qui a encore bien performé lors des tests multi-tours.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp