HyperAIHyperAI
vor 2 Monaten

Dokumentenranking mit einem vortrainierten Sequenz-zu-Sequenz-Modell

Rodrigo Nogueira; Zhiying Jiang; Jimmy Lin
Dokumentenranking mit einem vortrainierten Sequenz-zu-Sequenz-Modell
Abstract

Diese Arbeit schlägt eine neuartige Anpassung eines vortrainierten Sequenz-zu-Sequenz-Modells für die Aufgabe der Dokumentenbewertung vor. Unser Ansatz unterscheidet sich grundlegend von der üblichen klassifikationsbasierten Formulierung des Rankings, die auf encoder-basierten vortrainierten Transformer-Architekturen wie BERT basiert. Wir zeigen, wie ein Sequenz-zu-Sequenz-Modell trainiert werden kann, um Relevanzlabels als „Zielwörter“ zu generieren, und wie die zugrunde liegenden Logits dieser Zielwörter als Relevanzwahrscheinlichkeiten für das Ranking interpretiert werden können. Bei der beliebten MS MARCO Passage-Ranking-Aufgabe zeigen experimentelle Ergebnisse, dass unser Ansatz zumindest gleichwertig ist mit früheren klassifikationsbasierten Modellen und diese bei größeren, neueren Modellen sogar übertrifft. Anhand der Testkollektion des TREC 2004 Robust Track demonstrieren wir einen zero-shot Transfer-basierten Ansatz, der frühere state-of-the-art-Modelle übertrifft, die eine Kreuzvalidierung innerhalb des Datensatzes erfordern. Darüber hinaus stellen wir fest, dass unser Ansatz in einem datenarmen Szenario (d.h. bei wenigen Trainingsbeispielen) signifikant besser abschneidet als ein encoder-basierter Modellansatz. Wir untersuchen diese Beobachtung weiter, indem wir die Zielwörter variieren, um den Einsatz des latenten Wissens des Modells zu erforschen.