Saama Research à MEDIQA 2019 : BioBERT pré-entraîné avec visualisation d'attention pour l'inférence sémantique en langage naturel médical

L'inférence sur le langage naturel consiste à identifier la relation entre deux phrases, classée comme implication, contradiction ou neutralité. MedNLI est une variante biomédicale de l'inférence sur le langage naturel, spécifiquement conçue pour le domaine clinique. Ce papier explore l'utilisation du modèle Bidirectional Encoder Representations from Transformers (BERT) pour résoudre le jeu de données MedNLI. Le modèle proposé, pré-entraîné sur PMC et PubMed, puis finement ajusté sur MIMIC-III v1.4, atteint des résultats de pointe sur MedNLI (83,45 %) ainsi qu'une précision de 78,5 % lors du défi MEDIQA. Les auteurs présentent une analyse des motifs d'attention apparus après l'entraînement de BERT sur MedNLI, réalisée à l'aide d'un outil de visualisation appelé bertviz.