Die Bewertung der Nützlichkeit von manuell erstellten Merkmalen in der Sequenzmarkierung

Die gängige Meinung besagt, dass manuell erstellte Merkmale für tiefes Lernen überflüssig sind, da diese Modelle bereits aus Korpora automatisch angemessene Repräsentationen von Text lernen. In dieser Arbeit testen wir diese These, indem wir eine neue Methode vorschlagen, die manuell erstellte Merkmale in einem neuartigen hybriden Lernansatz zu nutzen, der ein Feature-Autoencoder-Verlustkomponente integriert. Wir evaluieren dies am Beispiel der Aufgabe der benannten Entitätserkennung (NER), wo wir zeigen, dass die Einbeziehung von manuellen Merkmalen für Wortarten, Wortformen und Glossaren die Leistung eines neuronalen CRF-Modells verbessern kann. Für den CoNLL-2003 Englisch Shared Task erzielen wir einen $F_1$-Wert von 91,89, was erheblich besser ist als eine Reihe hochwettbewerbsfähiger Baseline-Modelle. Darüber hinaus präsentieren wir eine Ablationsstudie, die die Bedeutung des Autoencodings im Vergleich zur Verwendung von Merkmalen allein als Eingaben oder Ausgaben unterstreicht. Zudem zeigen wir, dass die Einbeziehung der Autoencoder-Komponenten die Trainingsanforderungen um 40 % reduziert, während dieselbe Vorhersagegenauigkeit beibehalten wird.