HyperAIHyperAI

Command Palette

Search for a command to run...

Kann ChatGPT traditionelle KBQA-Modelle ersetzen? Eine detaillierte Analyse der Fragebeantwortungsleistung der GPT-LLM-Familie

Yiming Tan Dehai Min Yu Li Wenbo Li Nan Hu Yongrui Chen Guilin Qi

Zusammenfassung

ChatGPT ist ein leistungsstarker Großsprachmodell (Large Language Model, LLM), das Wissensressourcen wie Wikipedia umfasst und natürliche Sprachfragen mithilfe seines eigenen Wissens beantworten kann. Daher wächst das Interesse daran, zu untersuchen, ob ChatGPT traditionelle, auf Wissensbasen basierende Frage-Antwort-Modelle (Knowledge-Based Question Answering, KBQA) ersetzen kann. Obwohl bereits einige Arbeiten die Frage-Antwort-Leistung von ChatGPT analysiert haben, fehlt es weiterhin an großskaligen, umfassenden Tests verschiedener Arten komplexer Fragen, um die Grenzen des Modells systematisch zu erfassen. In diesem Paper präsentieren wir einen Rahmen, der den Spezifikationen für Black-Box-Tests folgt, wie sie von Ribeiro et al. im Rahmen von CheckList vorgeschlagen wurden. Wir evaluieren ChatGPT und seine Familie von LLMs an acht realweltbasierten, auf Wissensbasen basierenden Datensätzen komplexer Frage-Antwort-Aufgaben, darunter sechs englischsprachige und zwei mehrsprachige Datensätze. Die Gesamtanzahl der Testfälle beträgt etwa 190.000. Neben der GPT-Familie von LLMs bewerten wir auch das bekannte FLAN-T5, um Gemeinsamkeiten zwischen der GPT-Familie und anderen LLMs zu identifizieren. Die Datensätze und der Code sind unter https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kann ChatGPT traditionelle KBQA-Modelle ersetzen? Eine detaillierte Analyse der Fragebeantwortungsleistung der GPT-LLM-Familie | Paper | HyperAI