Bootleg: Das Verfolgen des Schwanzes mit selbstüberwachter benannten Entitätsdisambiguierung

Eine zentrale Herausforderung bei der Namensentitätsdisambiguierung (Named Entity Disambiguation, NED), der Aufgabe, Texterwähnungen auf Entitäten in einer Wissensbasis abzubilden, besteht darin, Entitäten zu disambiguieren, die selten im Trainingsdatensatz auftreten, sogenannte Tail-Entitäten. Menschen nutzen feine Schlussfolgerungsmuster, die auf Wissen über Entitätsfakten, Relationen und Typen basieren, um unbekannte Entitäten zu deuten. Inspiriert durch diese Muster führen wir Bootleg ein, ein selbstüberwachtes NED-System, das explizit auf Schlussfolgerungsmustern für die Disambiguierung basiert. Wir definieren zentrale Schlussfolgerungsmuster für die Disambiguierung, entwickeln ein Lernverfahren, das das selbstüberwachte Modell anregt, diese Muster zu erlernen, und zeigen, wie schwache Überwachung genutzt werden kann, um die Signale im Trainingsdatensatz zu verstärken. Durch die Implementierung der Schlussfolgerungsmuster in einer einfachen Transformer-Architektur erreicht Bootleg oder übertrifft den Stand der Technik auf drei NED-Benchmark-Datensätzen. Zudem zeigen wir, dass die gelernten Repräsentationen von Bootleg erfolgreich auf andere, nicht-disambiguierungsbezogene Aufgaben übertragen werden können, die entitätsbasiertes Wissen erfordern: Wir erreichen mit einem neuen SOTA in der etablierten TACRED-Aufgabe zur Relationsextraktion eine Verbesserung um 1,0 F1-Punkte und demonstrieren bis zu 8 % höhere Leistung in hochoptimierten Produktions-Such- und Assistentenaufgaben bei einem großen Technologieunternehmen.