Unsupervisiertes dichtes Informationsabruf mit kontrastivem Lernen

In jüngster Zeit hat die Informationsretrieval-Forschung die Einführung dichter Retriever basierend auf neuronalen Netzwerken als Alternative zu klassischen, auf Termhäufigkeiten basierenden sparsen Methoden erlebt. Diese Modelle erzielen state-of-the-art-Ergebnisse auf Datensätzen und Aufgaben, für die große Trainingsdatensätze zur Verfügung stehen. Sie übertragen sich jedoch schlecht auf neue Anwendungen ohne Trainingsdaten und werden von unsupervisierten Termhäufigkeitsmethoden wie BM25 übertroffen. In dieser Arbeit untersuchen wir die Grenzen des kontrastiven Lernens als Methode zur Training unsupervisierter dichter Retriever und zeigen, dass es zu starken Leistungen in verschiedenen Retrieval-Szenarien führt. Auf der BEIR-Benchmark erreicht unser unsupervisierter Ansatz bei 11 von 15 Datensätzen eine bessere Recall@100-Leistung als BM25. Wenn als Vortrainingsphase vor der Feinabstimmung – entweder auf wenigen Tausend in-domain-Beispielen oder auf dem großen MS~MARCO-Datensatz – eingesetzt, führt unser kontrastives Modell zu Verbesserungen auf der BEIR-Benchmark. Schließlich evaluieren wir unseren Ansatz im Kontext mehrsprachiger Retrieval-Aufgaben, bei denen Trainingsdaten noch seltener sind als für Englisch, und zeigen, dass unsere Methode starke unsupervisierte Leistungen erzielt. Unser Modell zeigt zudem starke Transferleistung zwischen Sprachen, wenn es lediglich auf überwachten englischen Daten feinabgestimmt und auf Sprachen mit geringen Ressourcen wie Swahili evaluiert wird. Wir zeigen, dass unsere unsupervisierten Modelle auch mehrsprachige Retrieval-Aufgaben zwischen verschiedenen Schriftsystemen bewältigen können, beispielsweise die Suche nach englischen Dokumenten anhand arabischer Abfragen, was mit herkömmlichen Term-Matching-Methoden nicht möglich wäre.