HyperAIHyperAI

Command Palette

Search for a command to run...

ArcheType : Un Nouveau Cadre pour l'Annotation de Types de Colonnes en Source Ouverte à l'Aide de Grands Modèles Linguistiques

Benjamin Feuer; Yurong Liu; Chinmay Hegde; Juliana Freire

Résumé

Les approches actuelles basées sur l'apprentissage profond pour l'annotation de type sémantique de colonne (CTA) présentent des lacunes importantes : elles reposent sur des types sémantiques fixés au moment de l'entraînement ; nécessitent un grand nombre d'échantillons d'entraînement par type et entraînent des coûts élevés d'inférence en temps réel ; et leurs performances peuvent se dégrader lorsqu'elles sont évaluées sur de nouveaux jeux de données, même lorsque les types restent constants. Les grands modèles linguistiques ont montré une forte performance de classification à vue zéro sur une large gamme de tâches, et dans cet article, nous explorons leur utilisation pour la CTA. Nous introduisons ArcheType, une méthode simple et pratique pour l'échantillonnage contextuel, la sérialisation des invites, la requête du modèle et le remappage des étiquettes, ce qui permet aux grands modèles linguistiques de résoudre les problèmes de CTA de manière entièrement à vue zéro. Nous analysons chaque composant de notre méthode séparément et établissons que les améliorations apportées à l'échantillonnage contextuel et au remappage des étiquettes offrent les gains les plus cohérents. ArcheType établit une nouvelle référence en matière de performance sur les benchmarks de CTA à vue zéro (y compris trois nouveaux benchmarks spécifiques à un domaine que nous publions avec cet article), et lorsqu'il est utilisé en conjonction avec les techniques classiques de CTA, il surpasse un modèle DoDuo d'état de l'art sur le benchmark SOTAB finement ajusté. Notre code est disponible à l'adresse suivante : https://github.com/penfever/ArcheType.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ArcheType : Un Nouveau Cadre pour l'Annotation de Types de Colonnes en Source Ouverte à l'Aide de Grands Modèles Linguistiques | Articles | HyperAI