HyperAIHyperAI
il y a 2 mois

De la sac de phrases au document : extraction de relations supervisée de loin par compréhension automatique de la lecture

Lingyong Yan; Xianpei Han; Le Sun; Fangchao Liu; Ning Bian
De la sac de phrases au document : extraction de relations supervisée de loin par compréhension automatique de la lecture
Résumé

La supervision à distance (SD) est une approche prometteuse pour l'extraction de relations, mais elle souffre souvent du problème des étiquettes bruyantes. Les méthodes traditionnelles de SD représentent généralement un couple d'entités comme un sac de phrases et débruitent les étiquettes en utilisant des techniques d'apprentissage multi-instance. Cependant, le paradigme basé sur les sacs échoue à exploiter les preuves au niveau inter-phrases et au niveau des entités pour l'extraction de relations, et leurs algorithmes de débruitage sont souvent spécialisés et complexes. Dans cet article, nous proposons un nouveau paradigme de SD : la supervision à distance basée sur les documents, qui modélise l'extraction de relations comme une tâche de compréhension automatique de documents (CAD). En réorganisant toutes les phrases concernant une entité en un document et en extrayant les relations par l'interrogation du document avec des questions spécifiques aux relations, le paradigme de SD basé sur les documents peut simultanément encoder et exploiter toutes les preuves au niveau phrase, inter-phrases et entités. De plus, nous concevons une nouvelle fonction de perte--DSLoss (perte de supervision à distance)--qui peut entraîner efficacement des modèles CAD en utilisant uniquement des triplets $\langle$document, question, réponse$\rangle$, résolvant ainsi intrinsèquement le problème des étiquettes bruyantes. Les expériences montrent que notre méthode atteint de nouvelles performances record dans le domaine de la SD.