Beschränkung linearer Ketten-CRFs auf reguläre Sprachen

Ein zentrales Problem bei der strukturierten Vorhersage besteht darin, die Interdependenzen innerhalb der Ausgabestrukturen angemessen zu repräsentieren. Wenn die Ausgaben als Folgen strukturiert sind, stellen lineare Kettenbedingte zufällige Felder (CRFs) eine weit verbreitete Modellklasse dar, die lokale Abhängigkeiten in der Ausgabe lernen können. Aufgrund der Markov-Annahme der CRF ist es jedoch unmöglich, Verteilungen mit nicht-lokalen Abhängigkeiten zu modellieren, und herkömmliche CRFs können keine nicht-lokalen Einschränkungen der Daten berücksichtigen (wie beispielsweise globale Aritätseinschränkungen für Ausgabelabels). Wir präsentieren eine Verallgemeinerung von CRFs, die eine breite Klasse von Einschränkungen – einschließlich nicht-lokaler – durch die Spezifikation des Raums möglicher Ausgabestrukturen als reguläre Sprache $\mathcal{L}$ erzwingen kann. Das resultierende regulär eingeschränkte CRF (RegCCRF) besitzt dieselben formalen Eigenschaften wie ein herkömmliches CRF, weist jedoch der gesamten Ausgabesequenzen außerhalb von $\mathcal{L}$ die Wahrscheinlichkeit null zu. Insbesondere können RegCCRFs ihre Einschränkungen bereits während des Trainings integrieren, während verwandte Modelle Einschränkungen lediglich während des Decodierens erzwingen. Wir beweisen, dass das eingeschränkte Training niemals schlechter ist als das eingeschränkte Decodieren, und zeigen empirisch, dass es in der Praxis erheblich besser sein kann. Zudem demonstrieren wir einen praktischen Nutzen für nachgeschaltete Aufgaben, indem wir ein RegCCRF in ein tiefes neuronales Modell für die semantische Rollenmarkierung integrieren und damit Ergebnisse über dem Stand der Technik auf einem Standarddatensatz erzielen.