HyperAIHyperAI

Command Palette

Search for a command to run...

Peut-on remplacer les modèles traditionnels de KBQA par ChatGPT ? Une analyse approfondie de la performance de réponse aux questions au sein de la famille de modèles LLM GPT

Yiming Tan Dehai Min Yu Li Wenbo Li Nan Hu Yongrui Chen Guilin Qi

Résumé

ChatGPT est un puissant modèle de langage à grande échelle (LLM) qui intègre des ressources de connaissance telles que Wikipedia et permet de répondre à des questions en langage naturel grâce à ses propres connaissances. En conséquence, un intérêt croissant se manifeste quant à la possibilité de remplacer les modèles traditionnels de réponse aux questions basés sur des connaissances (KBQA) par ChatGPT. Bien qu’une certaine littérature ait déjà analysé les performances de ChatGPT en matière de réponse aux questions, il manque encore des évaluations à grande échelle et complètes couvrant divers types de questions complexes, afin d’identifier les limites du modèle. Dans cet article, nous proposons un cadre d’évaluation conforme aux spécifications de test en boîte noire définies par CheckList, tel que proposé par Ribeiro et al. Nous évaluons ChatGPT ainsi que sa famille de modèles LLM sur huit jeux de données réels de réponse aux questions complexes basés sur des bases de connaissances, comprenant six jeux de données en anglais et deux jeux multilingues. Le nombre total de cas de test s’élève à environ 190 000. En plus des modèles de la famille GPT, nous évaluons également FLAN-T5, un modèle largement reconnu, afin d’identifier les similarités entre la famille GPT et d’autres modèles LLM. Les jeux de données et le code sont disponibles à l’adresse suivante : https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp