Les identifiants de sections basés sur les LLM excel dans les sources ouvertes mais peinent en applications réelles

Les dossiers de santé électroniques (DSE) constituent un atout majeur pour les professionnels de la santé, mais ils deviennent de plus en plus complexes et volumineux chaque jour. La consultation de ces longs DSE est laborieuse et représente une partie pénible de l'interaction médecin-patient. Plusieurs approches ont été proposées pour atténuer ce problème récurrent, que ce soit par le biais de résumés ou de sections, mais seules quelques-unes ont véritablement été utiles jusqu'à présent. Avec l'émergence des méthodes automatisées, l'apprentissage automatique (AA) a montré son potentiel pour résoudre la tâche d'identification des sections pertinentes dans les DSE. Cependant, la plupart des méthodes d'AA dépendent de données étiquetées, qui sont difficiles à obtenir dans le domaine de la santé. Les grands modèles linguistiques (GML), en revanche, ont réalisé des performances impressionnantes en traitement du langage naturel (TLN), et ce même sans données étiquetées (en configuration zéro-shot). Dans cette perspective, nous proposons d'utiliser les GML pour identifier les titres de section pertinents. Nous constatons que GPT-4 peut efficacement résoudre cette tâche dans des configurations zéro-shot et few-shot, ainsi qu'il segmente nettement mieux que les méthodes actuelles de pointe. De plus, nous avons également annoté un ensemble de données réel plus complexe et découvert que GPT-4 peine à bien performer, suggérant ainsi la nécessité de poursuivre les recherches et d'établir des benchmarks plus rigoureux.