SeqVAT: Virtuelle adversariale Ausbildung für semi-supervised Sequenzmarkierung

Virtual Adversarial Training (VAT) ist eine leistungsfähige Technik, um die Robustheit von Modellen sowohl in überwachten als auch in halbüberwachten Szenarien zu verbessern. Sie ist effektiv und kann problemlos auf zahlreiche Aufgaben der Bild- und Textklassifikation angewendet werden. Ihre Vorteile für Sequenzmarkierungsaufgaben wie die Namensentitätsenerkennung (NER) erwiesen sich jedoch bisher als weniger signifikant, hauptsächlich, weil die bisherigen Ansätze VAT nicht mit dem bedingten zufälligen Feld (CRF) kombinieren konnten. CRF kann die Genauigkeit von Sequenzmodellen erheblich steigern, indem es Einschränkungen für Label-Übergänge vorschreibt, wodurch es zu einem essenziellen Baustein in den meisten aktuellen Architekturen für hochleistungsfähige Sequenzmarkierungsmodelle wird. In diesem Paper stellen wir SeqVAT vor, eine Methode, die VAT nahtlos auf Sequenzmarkierungsmodelle mit CRF anwendet. Empirische Studien zeigen, dass SeqVAT nicht nur die Leistung bei der Sequenzmarkierung unter überwachten Bedingungen signifikant gegenüber Baselines verbessert, sondern auch state-of-the-art Ansätze unter halbüberwachten Bedingungen übertrifft.