HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage pour la dénoising de données étiquetées à distance pour le typage d'entités

Yasumasa Onoe Greg Durrett

Résumé

Les données étiquetées à distance peuvent être utilisées pour élargir l'entraînement des modèles statistiques, mais elles sont généralement bruyantes et ce bruit peut varier en fonction de la technique d'étiquetage à distance. Dans cette étude, nous proposons une procédure en deux étapes pour traiter ce type de données : les débruiter avec un modèle appris, puis entraîner notre modèle final sur des données à distance propres et débruitées avec une formation supervisée standard. Notre approche de débruitage se compose de deux parties. Premièrement, une fonction de filtrage élimine les exemples des données étiquetées à distance qui sont entièrement inutilisables. Deuxièmement, une fonction de réétiquetage corrige les étiquettes bruyantes pour les exemples conservés. Chacun de ces composants est un modèle entraîné sur des exemples bruités artificiellement générés à partir d'un petit ensemble manuellement étiqueté. Nous examinons cette approche dans le cadre de la tâche d'étiquetage d'entités ultra-fines de Choi et al. (2018). Notre modèle de référence est une extension de leur modèle avec des représentations ELMo pré-entraînées, qui atteint déjà des performances au niveau de l'état de l'art. L'ajout de données à distance débruitées par nos modèles appris apporte des gains supplémentaires en performance par rapport à ce modèle de base, surpassant les modèles entraînés sur des données à distance brutes ou débruitées heuristiquement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage pour la dénoising de données étiquetées à distance pour le typage d'entités | Articles | HyperAI