HyperAIHyperAI
vor 17 Tagen

Untersuchung von Kontexten über Satzgrenzen hinweg für die Benennung von Entitäten mit BERT

Jouni Luoma, Sampo Pyysalo
Untersuchung von Kontexten über Satzgrenzen hinweg für die Benennung von Entitäten mit BERT
Abstract

Die Erkennung benannter Entitäten (Named Entity Recognition, NER) wird häufig als Sequenzklassifizierungsaufgabe betrachtet, bei der jeder Eingabewert aus einem einzigen Satz besteht. Dennoch ist offensichtlich, dass für diese Aufgabe oft wertvolle Informationen jenseits des Kontexts einzelner Sätze zu finden sind. Kürzlich vorgestellte Selbst-Attention-Modelle wie BERT können sowohl langreichweitige Beziehungen in der Eingabe effizient erfassen als auch Eingaben aus mehreren Sätzen verarbeiten, was neue Möglichkeiten für Ansätze eröffnet, die informationsreiche Kontexte über Satzgrenzen hinaus in natürlichsprachlichen Verarbeitungsaufgaben einbeziehen. In diesem Paper präsentieren wir eine systematische Studie zur Nutzung von über-satz-übergreifenden Informationen für die NER unter Verwendung von BERT-Modellen in fünf Sprachen. Wir stellen fest, dass die Hinzufügung von zusätzlichen Sätzen als Kontext zur BERT-Eingabe die NER-Leistung in allen getesteten Sprachen und Modellen systematisch verbessert. Die Aufnahme mehrerer Sätze in jede Eingabe ermöglicht zudem die Untersuchung der Vorhersagen derselben Sätze in unterschiedlichen Kontexten. Wir schlagen eine einfache Methode, Contextual Majority Voting (CMV), zur Kombination verschiedener Vorhersagen für Sätze vor und zeigen, dass diese die NER-Leistung mit BERT weiter steigert. Unser Ansatz erfordert keine Änderungen an der zugrundeliegenden BERT-Architektur, sondern beruht ausschließlich auf der Umstrukturierung der Beispiele für das Training und die Vorhersage. Die Evaluation an etablierten Datensätzen, einschließlich der CoNLL’02- und CoNLL’03-NER-Benchmark-Datensätze, zeigt, dass unser vorgeschlagener Ansatz die derzeit besten Ergebnisse für die NER in Englisch, Niederländisch und Finnisch erreicht, die besten bisher veröffentlichten BERT-basierten Ergebnisse für Deutsch erzielt und in Spanisch mit anderen BERT-basierten Ansätzen vergleichbare Leistung erbringt. Alle in diesem Werk implementierten Methoden stellen wir unter offenen Lizenzen zur Verfügung.

Untersuchung von Kontexten über Satzgrenzen hinweg für die Benennung von Entitäten mit BERT | Neueste Forschungsarbeiten | HyperAI