HyperAIHyperAI
il y a 17 jours

Étude systématique et évaluation complète de ChatGPT sur des jeux de données de référence

Md Tahmid Rahman Laskar, M Saiful Bari, Mizanur Rahman, Md Amran Hossen Bhuiyan, Shafiq Joty, Jimmy Xiangji Huang
Étude systématique et évaluation complète de ChatGPT sur des jeux de données de référence
Résumé

Le développement des grands modèles linguistiques (LLM), tels que ChatGPT, a suscité un intérêt croissant ces derniers temps. Toutefois, leur évaluation sur des jeux de données académiques standardisés reste largement sous-exploree, en raison des difficultés inhérentes à l’évaluation des sorties génératives produites par ces modèles par rapport à une vérité terrain. Dans cet article, nous proposons une évaluation approfondie des performances de ChatGPT sur une diversité de jeux de données académiques, couvrant des tâches telles que la réponse aux questions, la synthèse de texte, la génération de code, le raisonnement courant, la résolution de problèmes mathématiques, la traduction automatique, la détection de biais et les considérations éthiques. Plus précisément, nous évaluons ChatGPT sur 140 tâches différentes et analysons 255 000 réponses générées dans ces jeux de données. Ce travail constitue ainsi la plus vaste évaluation jamais menée de ChatGPT sur des benchmarks en traitement du langage naturel (NLP). En résumé, notre étude vise à identifier les forces et faiblesses de ChatGPT dans diverses tâches, et à offrir des perspectives utiles pour les recherches futures sur les LLM. Nous rapportons également une nouvelle capacité émergente : celle de suivre des instructions multi-requêtes, un phénomène que nous observons principalement chez ChatGPT et d’autres modèles ajustés à l’instruction. Notre évaluation exhaustive révèle que, bien que ChatGPT soit capable de mener à bien une grande variété de tâches et puisse atteindre des performances impressionnantes sur plusieurs jeux de données de référence, il reste encore très éloigné de la capacité à résoudre de manière fiable de nombreuses tâches complexes. En fournissant une évaluation rigoureuse des performances de ChatGPT sur un large éventail de tâches NLP, cet article pose les fondations pour un déploiement ciblé des modèles LLM de type ChatGPT dans des applications du monde réel.