Ultra-Fine Entity Typing mit schwacher Supervision aus einem Masked Language Model

In jüngster Zeit wird verstärkt daran gearbeitet, die feinkörnige Entitätstypisierung durch die Verwendung eines reichhaltigeren und ultra-feinkörnigen Typensatzes zu erweitern, wobei statt nur benannter Entitätsreferenzen auch Nominalphrasen, einschließlich Pronomina und nominaler Nomen, typisiert werden. Eine zentrale Herausforderung bei dieser ultra-feinkörnigen Entitätstypisierung liegt darin, dass menschlich annotierte Daten äußerst knapp sind und die Annotierungsfähigkeit bestehender Ansätze basierend auf distanzierter oder schwacher Aufsicht sehr begrenzt ist. Um dieses Problem zu beheben, schlagen wir in diesem Paper vor, Trainingsdaten für die ultra-feinkörnige Entitätstypisierung mithilfe eines BERT-Masked Language Models (MLM) zu generieren. Gegeben eine Entitätsreferenz in einem Satz konstruieren wir eine Eingabe für das BERT-MLM derart, dass es kontextabhängige Hyperonyme der Referenz vorhersagt, die als Typen verwendet werden können. Experimentelle Ergebnisse zeigen, dass die Leistung eines ultra-feinkörnigen Entitätstypisierungsmodells durch die Nutzung dieser automatisch generierten Etiketten erheblich verbessert werden kann. Außerdem demonstrieren wir, dass unser Ansatz auch zur Verbesserung der traditionellen feinkörnigen Entitätstypisierung eingesetzt werden kann, nachdem eine einfache Typenabbildung durchgeführt wurde.