Menschliche Parität auf CommonsenseQA: Erweiterung von Self-Attention durch externe Aufmerksamkeit

Die meisten heutigen KI-Systeme setzen auf Selbst-Attention-Mechanismen und Transformer-Architekturen, die auf großen Mengen vielfältiger Daten trainiert werden, um beeindruckende Leistungssteigerungen zu erzielen. In diesem Paper schlagen wir vor, die Transformer-Architektur um einen externen Aufmerksamkeitsmechanismus zu erweitern, um externe Wissensinhalte und Kontextinformationen einzubeziehen. Durch die Integration externer Informationen in den Vorhersageprozess hoffen wir, die Abhängigkeit von stetig wachsenden Modellgrößen zu verringern und die Democratization von KI-Systemen voranzutreiben. Wir stellen fest, dass der vorgeschlagene externe Aufmerksamkeitsmechanismus die Leistung bestehender KI-Systeme erheblich verbessern kann und Praktikern ermöglicht, Grundmodell-KI-Systeme leicht an zahlreiche unterschiedliche Anwendungsfälle anzupassen. Insbesondere konzentrieren wir uns auf die Aufgabe des Common-Sense-Reasoning und zeigen, dass der vorgeschlagene externe Aufmerksamkeitsmechanismus bestehende Transformer-Modelle ergänzen und deren Schlussfolgerungsfähigkeit signifikant verbessern kann. Das vorgestellte System, Knowledgeable External Attention for Commonsense Reasoning (KEAR), erreicht auf dem offenen CommonsenseQA-Forschungsbenchmark menschliche Leistungsgleichheit mit einer Genauigkeit von 89,4 % im Vergleich zu einer menschlichen Genauigkeit von 88,9 %.