HyperAIHyperAI

Command Palette

Search for a command to run...

CONTaiNER : Reconnaissance de noms propres par apprentissage contrastif avec peu d'exemples

Sarkar Snigdha Sarathi Das Arzoo Katiyar Rebecca J. Passonneau Rui Zhang

Résumé

La reconnaissance d'entités nommées (NER) dans un cadre à faibles exemples (few-shot) est essentielle pour l'étiquetage des entités dans des domaines à ressources limitées. Les approches existantes ne captent que des caractéristiques sémantiques spécifiques aux classes et des représentations intermédiaires provenant des domaines sources. Cela limite leur capacité à généraliser à des domaines cibles inconnus, entraînant des performances sous-optimales. À cet effet, nous proposons CONTaiNER, une nouvelle technique d'apprentissage contrastif qui optimise la distance entre les distributions inter-token pour la NER en faibles exemples. Contrairement à l'optimisation des attributs spécifiques aux classes, CONTaiNER vise un objectif généralisé visant à distinguer les catégories de tokens sur la base de leurs embeddings distribués selon une loi gaussienne. Cette approche atténue efficacement les problèmes de surajustement liés aux domaines d'entraînement. Nos expérimentations sur plusieurs domaines de test classiques (OntoNotes, CoNLL'03, WNUT'17, GUM) ainsi que sur un nouveau jeu de données à grande échelle pour la NER en faibles exemples (Few-NERD) montrent qu’en moyenne, CONTaiNER surpasser les méthodes antérieures de 3 à 13 points d’exactitude absolus en F1, tout en maintenant des performances cohérentes, même dans des scénarios difficiles où les approches précédentes n’ont pas pu atteindre des performances significatives.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp