Frustrierend einfache Label-Projektion für die cross-linguale Übertragung

Die Übersetzung von Trainingsdaten in viele Sprachen ist als praktische Lösung zur Verbesserung des über-sprachlichen Transfers hervorgetreten. Für Aufgaben, die span-basierte Annotationen beinhalten, wie z.B. Informationsextraktion oder Fragebeantwortung, ist ein zusätzlicher Schritt der Label-Projektion erforderlich, um die annotierten Bereiche auf die übersetzten Texte abzubilden. Kürzlich haben einige Ansätze eine einfache Methode der Markierung und anschließenden Übersetzung genutzt, um Übersetzung und Projektion gemeinsam durchzuführen, indem spezielle Marker um die annotierten Bereiche im ursprünglichen Satz eingefügt werden. Dennoch sind uns bislang keine empirischen Analysen bekannt, die den Vergleich dieser Methode mit traditionellen Annotation-Projektionen basierend auf Wortausrichtung untersucht haben. In dieser Arbeit präsentieren wir eine umfangreiche empirische Studie über 57 Sprachen und drei Aufgaben (Fragebeantwortung [QA], Named Entity Recognition [NER] und Ereignisextraktion), um die Effektivität und Grenzen beider Methoden zu bewerten und damit eine wichtige Lücke in der Literatur zu schließen. Die experimentellen Ergebnisse zeigen, dass unsere optimierte Version der Markierung-und-Übersetzungsmethode, die wir EasyProject nennen, leicht auf viele Sprachen anwendbar ist und erstaunlich gut funktioniert, indem sie die komplexeren Methoden basierend auf Wortausrichtung übertrifft. Wir analysieren mehrere Schlüsselfaktoren, die das Endaufgabenergebnis beeinflussen, und zeigen, dass EasyProject gut funktioniert, weil es nach der Übersetzung die Label-Span-Grenzen genau beibehalten kann. Wir werden unseren gesamten Code und alle Daten öffentlich zur Verfügung stellen.