Extraction d'événements biomédicaux avec des graphes de connaissances hiérarchiques

L’extraction d’événements biomédicaux est essentielle pour comprendre les interactions biomoléculaires décrites dans les corpus scientifiques. L’un des principaux défis réside dans l’identification d’événements imbriqués structurés, associés à des mots déclencheurs non indicatifs. Nous proposons d’intégrer des connaissances de domaine issues du Unified Medical Language System (UMLS) dans un modèle linguistique pré-entraîné grâce à un réseau d’attention conditionnée par les arêtes de graphe (GEANet) et une représentation hiérarchique de graphe. Afin de mieux reconnaître les mots déclencheurs, chaque phrase est d’abord ancrée à un graphe de phrase basé sur un graphe de connaissances hiérarchique modélisé conjointement à partir de l’UMLS. Ces graphes ancrés sont ensuite propagés par GEANet, un nouveau réseau neuronal de graphe offrant des capacités améliorées pour inférer des événements complexes. Sur la tâche d’extraction d’événements GENIA du BioNLP 2011, notre approche a atteint une amélioration de 1,41 % en F1 et de 3,19 % en F1 pour les événements complexes, respectivement. Des études d’ablation confirment l’importance de GEANet et du graphe de connaissances hiérarchique.