Aufmerksamkeit (allein) reicht nicht für alltägliche Schlussfolgerungen

Das kürzlich eingeführte BERT-Modell zeigt eine starke Leistung bei mehreren Benchmarks für Sprachverstehen. In dieser Arbeit beschreiben wir eine einfache Neuausführung von BERT für die Common-Sense-Begründung (commonsense reasoning). Wir zeigen, dass die Aufmerksamkeiten (attentions), die von BERT erzeugt werden, direkt für Aufgaben wie das Pronomen-Deklarierungsproblem und die Winograd-Schema-Herausforderung genutzt werden können. Unser vorgeschlagenes aufmerksamkeitsgeleitetes Verfahren zur Common-Sense-Begründung ist konzeptionell einfach, aber empirisch mächtig. Eine experimentelle Analyse mehrerer Datensätze zeigt, dass unser vorgeschlagenes System in allen Fällen bemerkenswert gut abschneidet und den bisherigen Stand der Technik um einen beträchtlichen Margen übertrifft. Obwohl die Ergebnisse darauf hindeuten, dass BERT anscheinend implizit lernt, komplexe Beziehungen zwischen Entitäten herzustellen, könnte die Lösung von Common-Sense-Begründungsaufgaben mehr als nur unüberwachte Modelle erfordern, die aus großen Textkorpora gelernt wurden.