HyperAIHyperAI
vor 17 Tagen

Große Dual-Encoder sind verallgemeinerbare Retriever

Jianmo Ni, Chen Qu, Jing Lu, Zhuyun Dai, Gustavo Hernández Ábrego, Ji Ma, Vincent Y. Zhao, Yi Luan, Keith B. Hall, Ming-Wei Chang, Yinfei Yang
Große Dual-Encoder sind verallgemeinerbare Retriever
Abstract

Es wurde gezeigt, dass Dual-Encoder-Modelle, die auf einem bestimmten Domänenbereich trainiert wurden, oft nicht gut auf andere Domänen generalisieren können, insbesondere für Retrieval-Aufgaben. Eine weit verbreitete Annahme besagt, dass die Engstelle (bottleneck layer) eines Dual Encoders – bei der das Endergebnis lediglich ein Skalarprodukt zwischen einem Abfragevektor und einem Passagenvektor ist – zu eingeschränkt sei, um Dual-Encoder-Modelle als effektive Retrieval-Modelle für die Generalisierung außerhalb der Trainingsdomäne zu nutzen. In dieser Arbeit stellen wir diese Annahme in Frage, indem wir die Größe des Dual-Encoder-Modells erhöhen, während die Größe des Engstellen-Embeddings konstant bleibt. Mit einem mehrstufigen Trainingsansatz führt die Skalierung der Modellgröße überraschenderweise zu einer erheblichen Verbesserung auf einer Vielzahl von Retrieval-Aufgaben, insbesondere bei der Generalisierung außerhalb der Domäne. Experimentelle Ergebnisse zeigen, dass unsere Dual-Encoder-Modelle, die Generalizable T5-basierten Retrievers (GTR), die Leistung von ColBERT~\cite{khattab2020colbert} sowie bestehenden sparse und dense Retrievers auf dem BEIR-Datensatz~\cite{thakur2021beir} deutlich übertrifft. Besonders überraschend ist, dass unsere Ablationstudie ergab, dass GTR äußerst dateneffizient ist: Es genügt lediglich 10 % des überwachten MS MARCO-Datensatzes, um die beste Leistung bei der Generalisierung außerhalb der Domäne zu erzielen. Alle GTR-Modelle sind öffentlich unter https://tfhub.dev/google/collections/gtr/1 verfügbar.

Große Dual-Encoder sind verallgemeinerbare Retriever | Neueste Forschungsarbeiten | HyperAI