HyperAIHyperAI
vor 2 Monaten

TruthfulQA: Messung, wie Modelle menschliche Falschaussagen nachahmen

Stephanie Lin; Jacob Hilton; Owain Evans
TruthfulQA: Messung, wie Modelle menschliche Falschaussagen nachahmen
Abstract

Wir schlagen eine Benchmark vor, um zu messen, ob ein Sprachmodell bei der Generierung von Antworten auf Fragen wahrheitsgemäß ist. Die Benchmark besteht aus 817 Fragen, die 38 Kategorien abdecken, darunter Gesundheit, Recht, Finanzen und Politik. Wir haben Fragen gestellt, die einige Menschen aufgrund falscher Überzeugungen oder Missverständnissen fälschlicherweise beantworten würden. Um gut abzuschneiden, müssen die Modelle vermeiden, falsche Antworten zu generieren, die sie durch das Imitieren menschlicher Texte gelernt haben. Wir haben GPT-3, GPT-Neo/J, GPT-2 und ein T5-basiertes Modell getestet. Das beste Modell war bei 58 % der Fragen wahrheitsgemäß, während die menschliche Leistung bei 94 % lag. Die Modelle generierten viele falsche Antworten, die populäre Missverständnisse nachahmen und das Potenzial haben, Menschen zu täuschen. Größere Modelle waren im Allgemeinen weniger wahrheitsgemäß. Dies steht im Gegensatz zu anderen NLP-Aufgaben (NLP = Natural Language Processing), bei denen sich die Leistung mit der Modellgröße verbessert. Allerdings ist dieses Ergebnis erwartbar, wenn falsche Antworten aus der Trainingsverteilung gelernt werden. Wir schlagen vor, dass das einfache Vergrößern der Modelle weniger vielversprechend für die Verbesserung der Wahrhaftigkeit ist als das Feinjustieren unter Verwendung von Trainingszielen, die nicht nur auf der Imitation von Webtexten basieren.

TruthfulQA: Messung, wie Modelle menschliche Falschaussagen nachahmen | Neueste Forschungsarbeiten | HyperAI