HyperAIHyperAI
il y a 2 mois

Classement de documents avec un modèle préentraîné de séquence à séquence

Rodrigo Nogueira; Zhiying Jiang; Jimmy Lin
Classement de documents avec un modèle préentraîné de séquence à séquence
Résumé

Ce travail propose une nouvelle adaptation d'un modèle préentraîné de séquence à séquence à la tâche de classement de documents. Notre approche est fondamentalement différente de la formulation classique du classement basée sur la classification, qui utilise des architectures de transformateurs préentraînés uniquement avec un encodeur, comme BERT. Nous montrons comment un modèle de séquence à séquence peut être entraîné pour générer des étiquettes de pertinence sous forme de « mots cibles » et comment les logits sous-jacents de ces mots cibles peuvent être interprétés comme des probabilités de pertinence pour le classement. Sur la tâche populaire de classement de passages MS MARCO, les résultats expérimentaux montrent que notre approche est au moins équivalente aux modèles précédents basés sur la classification et peut les surpasser avec des modèles plus récents et plus grands. Sur la collection de tests du TREC 2004 Robust Track, nous démontrons une approche basée sur le transfert zéro-shot qui surpasse les modèles précédents d'état de l'art nécessitant une validation croisée dans le jeu de données. De plus, nous constatons que notre approche dépasse significativement un modèle uniquement avec un encodeur dans un régime pauvre en données (c'est-à-dire avec peu d'exemples d'entraînement). Nous explorons davantage cette observation en variant les mots cibles pour sonder l'utilisation par le modèle des connaissances latentes.

Classement de documents avec un modèle préentraîné de séquence à séquence | Articles de recherche récents | HyperAI