AIFB-WebScience bei SemEval-2022 Task 12: Relationsextraktion zuerst -- Verwendung von Relationsextraktion zur Identifikation von Entitäten

In dieser Arbeit stellen wir einen end-to-end Ansatz zur gemeinsamen Entitätserkennung und Relationsextraktion vor, der auf transformer-basierten Sprachmodellen aufbaut. Wir wenden das Modell auf die Aufgabe an, mathematische Symbole in LaTeX-Dokumenten mit ihren Beschreibungen zu verknüpfen. Im Gegensatz zu bestehenden Ansätzen, die Entitätserkennung und Relationsextraktion sequentiell durchführen, integriert unser System Informationen aus der Relationsextraktion in den Prozess der Entitätserkennung. Dies bedeutet, dass das System auch auf Datensätzen trainiert werden kann, bei denen nur ein Teil aller gültigen Entitätsbereiche annotiert ist. Wir führen eine umfangreiche Evaluation des vorgeschlagenen Systems durch und beleuchten dessen Stärken und Schwächen. Unser Ansatz, der dynamisch in der Rechenaufwandkomplexität während der Inferenz skaliert werden kann, erzeugt Vorhersagen mit hoher Präzision und erreicht den dritten Platz im Leaderboard von SemEval-2022 Task 12. Für Eingaben im Bereich Physik und Mathematik erreicht er Makro-F1-Werte für die Relationsextraktion von 95,43 % und 79,17 % respektive. Der für das Training und die Evaluation unserer Modelle verwendete Code ist unter folgender URL verfügbar: https://github.com/nicpopovic/RE1st