HyperAIHyperAI

Command Palette

Search for a command to run...

CODAH: Ein von Gegnern erstelltes Frage-Antwort-Datensatz für Alltagswissen

Michael Chen Mike D’Arcy Alisa Liu Jared Fernandez Doug Downey

Zusammenfassung

Alltagslogisches Schließen ist eine entscheidende Fähigkeit der Künstlichen Intelligenz, aber es ist schwierig, anspruchsvolle Datensätze zu erstellen, die den Alltagssinn testen. Neuere neuronale Fragebeantwortungssysteme, die auf großen vortrainierten Sprachmodellen basieren, haben bereits nahezu menschliche Leistung auf Benchmarks für alltagslogisches Wissen erzielt. Diese Systeme besitzen jedoch nicht den menschlichen Alltagssinn, sondern können die Limitationen der Datensätze ausnutzen, um menschliche Punktzahlen zu erreichen.Wir stellen den CODAH-Datensatz vor, einen widerspenstig konstruierten Evaluationsdatensatz zur Prüfung des Alltagssinns. CODAH bildet eine anspruchsvolle Erweiterung des kürzlich vorgeschlagenen SWAG-Datensatzes, der alltagslogisches Wissen durch Lückentextfragen prüft, die Situationen beschreiben, die in Videos beobachtet wurden. Um einen schwierigeren Datensatz zu erzeugen, führen wir ein neues Verfahren für die Fragestellung ein, bei dem Mitarbeiter Fragen erstellen sollen, die darauf abzielen, Schwächen der aktuellen neuronalen Fragebeantwortungssysteme anzusprechen. Die Mitarbeiter werden belohnt, wenn ihre Einreichungen von Modellen sowohl vor als auch nach dem Feintuning (im Kreuzvalidierung) nicht korrekt beantwortet werden können. Wir erstellen 2.800 Fragen durch dieses Verfahren und evaluieren die Leistung mehrerer state-of-the-art-Fragebeantwortungssysteme auf unserem Datensatz. Wir beobachten einen signifikanten Leistungsunterschied zwischen der menschlichen Leistung von 95,3 % und der besten Baseline-Genauigkeit von 67,5 % durch das BERT-Large-Modell.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp