Google propose une solution révolutionnaire pour combattre la pénurie de données d'entraînement en nettoyant automatiquement les contenus sensibles ou toxiques
Une pénurie croissante de données pour l’entraînement des modèles d’intelligence artificielle menace de freiner l’avancement des systèmes d’IA, mais une équipe de chercheurs de Google DeepMind propose une solution prometteuse. Intitulée Génération de données raffinées (Generative Data Refinement, ou GDR), cette méthode utilise des modèles génératifs pré-entraînés pour nettoyer automatiquement des données brutes, en éliminant ou en remplaçant les éléments problématiques — comme des numéros de sécurité sociale, des informations personnelles ou des faits obsolètes — tout en préservant le contenu utile. Ce processus permet de réutiliser des données autrefois rejetées, ce qui pourrait considérablement étendre la quantité de données disponibles pour entraîner les modèles d’IA. Selon Minqi Jiang, l’un des auteurs du papier — désormais chez Meta —, de nombreuses laboratoires abandonnent des documents entiers dès lors qu’ils contiennent une seule ligne de données non conformes, entraînant une perte massive de données utiles. Grâce à la GDR, ces fragments toxiques sont identifiés et corrigés ou supprimés sans compromettre le reste du document. Par exemple, un numéro de sécurité sociale est remplacé par une chaîne générique, et les informations périmées (comme « le nouveau PDG est… ») sont ignorées, tout en conservant le contenu sémantiquement pertinent. Le prototype a été testé sur plus d’un million de lignes de code, en comparant les résultats de la GDR avec des annotations humaines. Les chercheurs affirment que leur méthode surpasse largement les solutions actuelles et les données synthétiques, souvent utilisées pour pallier le manque de données réelles. Ces dernières, bien qu’utiles, peuvent entraîner une dégradation de la qualité des modèles ou même un phénomène de « collapsus du modèle », où les performances s’effondrent à cause de la surutilisation de données artificielles. Bien que le papier n’ait pas encore été soumis à un examen par les pairs — une pratique courante dans l’industrie technologique —, les résultats sont prometteurs. Les chercheurs prévoient que la GDR pourrait être étendue à d’autres types de données, comme les contenus protégés par le droit d’auteur ou les informations personnelles implicites réparties dans plusieurs documents. Bien que la méthode ait été testée uniquement sur du texte et du code, Jiang estime qu’elle pourrait s’appliquer à d’autres modalités, comme la vidéo ou l’audio. Cependant, il souligne que le volume de vidéos générées quotidiennement reste immense, offrant une source inépuisable de données pour l’IA. Google DeepMind n’a pas confirmé si la GDR est utilisée dans ses modèles comme Gemini, mais l’approche pourrait jouer un rôle clé dans la poursuite du développement des modèles d’IA face à l’épuisement des sources de données humaines, selon une estimation selon laquelle toutes les données textuelles humaines pourraient être consommées entre 2026 et 2032. Cette innovation pourrait donc devenir un pilier stratégique pour l’avenir de l’intelligence artificielle.
