Un nouveau corpus public pour l'identification des sections cliniques : MedSecId

Le processus par lequel les sections d’un document sont délimitées et étiquetées est connu sous le nom d’identification de section. De telles sections sont utiles au lecteur lorsqu’il recherche des informations ou cherche à situer un sujet particulier dans son contexte. Ce travail vise à segmenter les sections des documents du domaine médical clinique. La contribution principale de ce travail est MedSecId, un ensemble publiquement disponible de 2 002 notes médicales entièrement annotées provenant de MIMIC-III. Nous incluons plusieurs modèles de référence, le code source, un modèle pré-entraîné ainsi qu’une analyse des données mettant en évidence une relation entre les concepts médicaux à travers les sections, réalisée à l’aide d’une analyse en composantes principales.