AxCell : Extraction automatique des résultats à partir d'articles sur l'apprentissage automatique

Suivre les progrès en apprentissage automatique (machine learning) est devenu de plus en plus difficile avec l'explosion récente du nombre d'articles scientifiques. Dans cet article, nous présentons AxCell, un pipeline d'apprentissage automatique automatisé pour extraire des résultats à partir d'articles. AxCell utilise plusieurs composants novateurs, dont une sous-tâche de segmentation de tableaux, pour apprendre des connaissances structurelles pertinentes qui facilitent l'extraction. Comparée aux méthodes existantes, notre approche améliore considérablement l'état de l'art en matière d'extraction de résultats. Nous mettons également à disposition un jeu de données structuré et annoté pour entraîner des modèles d'extraction de résultats, ainsi qu'un jeu de données pour évaluer la performance des modèles sur cette tâche. Enfin, nous démontrons que la viabilité de notre approche permet son utilisation pour l'extraction semi-automatisée de résultats en production, suggérant que nos améliorations rendent cette tâche pratiquement réalisable pour la première fois. Le code est disponible sur GitHub.