Contrainte des CRF en chaîne linéaire aux langages réguliers

Un défi majeur en prédiction structurée consiste à représenter les dépendances interne dans les structures de sortie. Lorsque les sorties sont structurées sous forme de séquences, les champs aléatoires conditionnels en chaîne linéaire (CRFs) constituent une classe de modèles largement utilisée, capable d'apprendre des dépendances locales dans la sortie. Toutefois, l'hypothèse de Markov des CRFs rend impossible la modélisation de distributions présentant des dépendances non locales, et les CRFs standards ne peuvent respecter les contraintes non locales présentes dans les données (telles que les contraintes de arité globale sur les étiquettes de sortie). Nous proposons une généralisation des CRFs permettant d'imposer une large classe de contraintes, y compris les contraintes non locales, en spécifiant l'espace des structures de sortie possibles comme un langage régulier $\mathcal{L}$. Le CRF contraint régulièrement (RegCCRF) ainsi obtenu possède les mêmes propriétés formelles qu’un CRF standard, mais attribue une probabilité nulle à toutes les séquences d’étiquettes n’appartenant pas à $\mathcal{L}$. Notamment, les RegCCRF peuvent intégrer leurs contraintes durant l’apprentissage, alors que les modèles apparentés n’imposent ces contraintes qu’en phase de décodage. Nous démontrons que l’apprentissage sous contrainte n’est jamais pire que le décodage sous contrainte, et montrons empiriquement qu’il peut être nettement meilleur en pratique. En outre, nous illustrons un avantage pratique sur des tâches ultérieures en intégrant un RegCCRF dans un modèle neuronal profond pour l’étiquetage des rôles sémantiques, dépassant ainsi les résultats de l’état de l’art sur un jeu de données standard.