Dokumentweite Relationsextraktion mit adaptivem Schwellwert und lokalisiertem Kontextpooling

Dokumentebene-Relationsextraktion (RE) stellt gegenüber ihrer Satzebene entsprichtende Variante neue Herausforderungen dar. Ein Dokument enthält gewöhnlich mehrere Entitätenpaare, und ein einzelnes Entitätenpaar tritt mehrfach im Dokument auf, jeweils mit mehreren möglichen Relationen verbunden. In diesem Artikel stellen wir zwei neue Techniken vor: adaptive Schwellenwertbildung und lokalisierte Kontextpooling, um die Probleme der Mehrfachlabel- und Mehrfachentitäten-Extraktion zu bewältigen. Die adaptive Schwellenwertbildung ersetzt den globalen Schwellenwert für die Mehrfachlabel-Klassifikation aus früheren Arbeiten durch einen lernbaren, entitätsabhängigen Schwellenwert. Das lokalisierte Kontextpooling überträgt direkt die Aufmerksamkeit von vortrainierten Sprachmodellen, um relevante Kontextinformationen zu identifizieren, die zur Entscheidung über die Relation hilfreich sind. Wir testen unsere ATLOP-(Adaptive Thresholding and Localized cOntext Pooling)-Modell an drei Benchmark-Datenbanken für Dokumentebene-RE: DocRED, einem kürzlich veröffentlichten großskaligen RE-Datensatz, sowie zwei Datensätzen aus dem biomedizinischen Bereich, CDR und GDA. Unser ATLOP-Modell erreicht eine F1-Score von 63,4 und schneidet signifikant besser ab als bestehende Modelle sowohl auf CDR als auch auf GDA.