La Méthode de Ré-Étiquetage pour l'Apprentissage Automatique centré sur les Données

Dans les applications de l'apprentissage profond en industrie, nos données étiquetées manuellement contiennent un certain nombre de données bruitées. Pour résoudre ce problème et obtenir un score supérieur à 90 dans l'ensemble de données de développement (dev dataset), nous proposons une méthode simple pour identifier les données bruitées et les réétiqueter par des humains, en utilisant les prédictions du modèle comme référence lors de l'étiquetage manuel. Dans cet article, nous illustrons notre approche pour une gamme étendue de tâches d'apprentissage profond, incluant la classification, l'étiquetage séquentiel, la détection d'objets, la génération séquentielle et la prédiction du taux de clics (click-through rate prediction). Les résultats d'évaluation sur l'ensemble de données de développement et les résultats d'évaluation humaine confirment notre idée.