HyperAIHyperAI

Command Palette

Search for a command to run...

Une étude sur l'extraction d'information : prenez en compte la tokenization !

Christos Theodoropoulos Marie-Francine Moens

Résumé

Les recherches actuelles sur les avantages et les compromis liés à l’utilisation de caractères, plutôt que de textes tokenisés, comme entrée pour les modèles d’apprentissage profond, ont considérablement évolué. De nouveaux modèles sans tokenisation éliminent l’étape traditionnelle de tokenisation ; toutefois, leur efficacité reste encore mal établie. De plus, l’impact de la tokenisation est relativement peu exploré dans les tâches de marquage de séquences. À cet effet, nous étudions l’impact de la tokenisation lors de l’extraction d’information à partir de documents et présentons une étude comparative et une analyse des modèles fondés sur des sous-mots et des caractères. Plus précisément, nous nous intéressons à l’extraction d’information (IE) à partir de textes biomédicaux. Le résultat principal est double : les schémas de tokenisation peuvent introduire un biais inductif conduisant à des performances de pointe, et les modèles basés sur les caractères produisent des résultats prometteurs ; ainsi, le passage à des modèles d’extraction d’information sans tokenisation s’avère réalisable.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Une étude sur l'extraction d'information : prenez en compte la tokenization ! | Articles | HyperAI