Nouvel outil DataSAIL pour optimiser la séparation des données d'entraînement et de test en IA
Nouveau Outil pour l'Évaluation Optimisée des Modèles d'IA Un nouveau outil appelé DataSAIL a été développé pour améliorer l'évaluation des performances des modèles d'intelligence artificielle (IA). Créé par une équipe de bioinformaticiens de l'Université Friedrich-Alexander-Erlanngen-Nürnberg (FAU) et de l'Institut de Recherche Pharmaceutique Helmholtz de Sarre (HIPS), ce logiciel sépare automatiquement les données d'entraînement et de test afin qu'elles soient le plus différentes possibles. Cette démarche permet de vérifier la fiabilité des modèles d'IA face à des données non vues préalablement, connues sous le nom de données en dehors de la distribution (out-of-distribution, OoD). L'Importance de la Séparation des Données Les modèles d'apprentissage machine sont formés à partir de grandes quantités de données et doivent être testés avant leur utilisation pratique. Pour réaliser ce test, les données sont divisées en deux ensembles : un plus grand ensemble d'entraînement utilisé pour enseigner au modèle, et un plus petit ensemble de test utilisé pour le valider. Prof. Dr. David Blumenthal, bioinformaticien au Département d'Intelligence Artificielle en Ingenierie Bio médicale (AIBE) de l'FAU, explique que cette séparation optimale est essentielle pour déterminer si le modèle peut fonctionner de manière fiable avec des données nouvelles et inatendues. Des Performances Surévaluées La plupart des algorithmes conventionnels ne peuvent pas effectuer cette division optimisée, ce qui conduit fréquemment à une surévaluation des performances des modèles d'IA. Face à cet problème, Blumenthal et ses collègues du HIPS ont conçu DataSAIL pour éviter de telles erreurs et établir de nouvelles normes dans ce domaine crucial de l'apprentissage machine. Fonctionnalités de DataSAIL Automatisation et Versatilité DataSAIL est un outil gratuit, adaptable à tous types de données, pas seulement celles utilisées en recherche biologique. Les utilisateurs n'ont qu'à définir quelques paramètres pour leurs ensembles de données, et DataSAIL gère automatiquement et de manière constante le reste du processus. Traitement des Données d'Interaction DataSAIL est également le premier outil capable de traiter automatiquement les données d'interaction, des données multidimensionnelles qui sont particulièrement importantes en recherche pharmaceutique. Par exemple, lors du développement de modèles prédictifs d'interaction entre des molécules de médicaments et des protéines cibles, il est crucial d'évaluer la performance du modèle pour différentes variations de médicaments et pour diverses protéines. Considération des Caractéristiques de Classe L'outil prend en compte les caractéristiques de classe, comme une répartition équilibrée des sujets masculins et féminins dans les ensembles d'entraînement et de test. Cela permet d'éviter que le test du modèle ne produise des résultats plus irréalistes pour un genre que pour l'autre, assurant ainsi une évaluation plus juste et représentative. Perspectives de Développement Les chercheurs prévoient d'améliorer DataSAIL au cours des prochaines années. L'objectif est de réduire le temps de calcul des algorithmes et de préparer les données encore plus précisément pour différents scénarios pratiques. Ces améliorations visent à rendre l'outil encore plus efficace et accessible, contribuant ainsi à améliorer la fiabilité et le développement futur des modèles d'IA. Évaluation Par les Professionnels de l'Industrie Les professionnels de l'industrie et de la recherche s'accordent à dire que DataSAIL représente une avancée significative dans le domaine de l'évaluation des modèles d'IA. En offrant une méthode robuste et automatisée pour la séparation des données, l'outil réduit considérablement le risque de surestimation des performances des modèles, ce qui est crucial pour leur application dans des domaines sensibles comme le développement de médicaments. Profil de l'Entreprise et des Institutions Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) est une université de renom en Allemagne, reconnue pour son expertise en ingénierie biomédicale et en intelligence artificielle. Le Helmholtz Institute for Pharmaceutical Research Saarland (HIPS), quant à lui, est un institut de recherche leader dans le domaine pharmaceutique et biotechnologie, collaborant fréquemment avec FAU sur des projets de pointe. En conclusion, DataSAIL représente un pas en avant majeur dans l'évaluation des modèles d'IA, offre une solution automatisée et polyvalente pour la séparation optimale des données, et se positionne comme un outil indispensable pour les scientifiques et les développeurs travaillant dans des domaines à forte intensité de données.