HyperAIHyperAI
il y a 2 mois

PARADE : Agrégation de Représentations de Passages pour le Réclassement de Documents

Canjia Li; Andrew Yates; Sean MacAvaney; Ben He; Yingfei Sun
PARADE : Agrégation de Représentations de Passages pour le Réclassement de Documents
Résumé

Les modèles de transformateur préentraînés, tels que BERT et T5, ont démontré leur efficacité considérable pour le classement ad hoc de passages et de documents. En raison des limites inhérentes à la longueur des séquences dans ces modèles, ils doivent être appliqués aux passages d'un document plutôt que de traiter l'ensemble du document en une seule fois. Bien que plusieurs approches pour l'agrégation des signaux au niveau des passages aient été proposées, aucune comparaison exhaustive de ces techniques n'a encore été réalisée. Dans cette étude, nous explorons des stratégies permettant d'agréger les signaux de pertinence provenant des passages d'un document afin d'en obtenir un score final de classement. Nous constatons que les techniques d'agrégation des représentations de passages peuvent améliorer significativement les méthodes proposées précédemment, comme la prise du score maximal d'un passage. Nous appelons cette nouvelle approche PARADE. Plus particulièrement, PARADE peut améliorer considérablement les résultats sur des collections avec des besoins d'information larges où les signaux de pertinence sont répartis tout au long du document (comme TREC Robust04 et GOV2). Parallèlement, des techniques d'agrégation moins complexes peuvent se révéler plus efficaces sur des collections où le besoin d'information peut souvent être localisé à un seul passage (comme TREC DL et TREC Genomics). Nous menons également des analyses de l'efficacité et mettons en lumière plusieurs stratégies pour améliorer l'agrégation basée sur les transformateurs.

PARADE : Agrégation de Représentations de Passages pour le Réclassement de Documents | Articles de recherche récents | HyperAI