PIQA: Über die physikalische Alltagsintelligenz in natürlicher Sprache nachdenken

Um Augenschatten ohne Pinsel aufzutragen, sollte man einen Wattebausch oder ein Zahnstocher verwenden? Fragen, die diese Art von physikalischem Allgemeinwissen erfordern, stellen eine Herausforderung für heutige Systeme der natürlichen Sprachverarbeitung dar. Obwohl kürzlich vortrainierte Modelle (wie BERT) bei der Beantwortung von Fragen in abstrakteren Bereichen – wie Nachrichtenartikeln und Enzyklopädieeinträgen, wo Text reichlich vorhanden ist – Fortschritte gemacht haben, sind Texte in physikalischer Hinsicht aufgrund des Berichterstattungsfehlers inherent begrenzt. Können KI-Systeme lernen, physikalische Allgemeinwissen-Fragen zuverlässig zu beantworten, ohne die physische Welt zu erleben? In dieser Arbeit führen wir die Aufgabe des physikalischen Allgemeinwissensschlusses und den entsprechenden Benchmark-Datensatz Physical Interaction: Question Answering (PIQA) ein. Obwohl Menschen den Datensatz leicht finden (95 % Genauigkeit), kämpfen große vortrainierte Modelle damit (77 %). Wir liefern eine Analyse der Wissensdimensionen, die bestehende Modelle fehlen lassen, was bedeutende Möglichkeiten für zukünftige Forschung bietet.