HyperAIHyperAI
vor 18 Tagen

End-to-End-Abfragebegriffsgewichtung

{Marc Najork, Mike Bendersky, Kashyap Kolipaka, Xingyu Wang, Wensong Xu, Swaraj Khadanga, Shaleen Gupta, Mingyang Zhang, Tao Chen, Weize Kong, Cheng Li, Karan Samel}
Abstract

Bag-of-Words-basierte lexikalische Retrieval-Systeme sind weiterhin die am häufigsten verwendeten Methoden für praktische Suchanwendungen in der Realwelt. In jüngster Zeit haben tiefes Lernen basierte Ansätze vielversprechende Ergebnisse zur Verbesserung der Retrieval-Leistung gezeigt, sind jedoch kostspielig im Online-Betrieb, nicht trivial in bestehende Produktions-Systeme zu integrieren und können in Szenarien mit Out-of-Domain-Retrieval möglicherweise schlecht generalisieren. Stattdessen bauen wir auf bestehenden lexikalischen Retrievern auf und stellen ein Term Weighting BERT (TW-BERT)-Modell vor. TW-BERT lernt, die Gewichte einzelner n-Gramme (z. B. Uni- und Bi-Gramme) als Eingabeterme einer Abfrage vorherzusagen. Diese abgeleiteten Gewichte und Terme können direkt von einem Retrieval-System zur Durchführung einer Abfrage-Suche verwendet werden. Um diese Termgewichte zu optimieren, integriert TW-BERT die von der Suchmaschine verwendete Bewertungsfunktion, wie beispielsweise BM25, zur Bewertung von Abfrage-Dokument-Paaren. Gegeben Stichproben von Abfrage-Dokument-Paaren können wir eine Rangverlustfunktion über diese Übereinstimmungsscores berechnen und die gelernten Abfrage-Term-Gewichte in einer end-to-end-Weise optimieren. Die Ausrichtung von TW-BERT an den Bewertungsfunktionen der Suchmaschine minimiert die notwendigen Änderungen für die Integration in bestehende Produktionsanwendungen, während bestehende tiefes Lernen basierte Suchmethoden zusätzliche Infrastruktur-Optimierungen und höhere Hardware-Anforderungen erfordern würden. Die gelernten Gewichte können leicht von standardmäßigen lexikalischen Retrievern sowie anderen Retrieval-Techniken wie Query Expansion genutzt werden. Wir zeigen, dass TW-BERT die Retrieval-Leistung gegenüber starken Baselines für Term-Gewichtung innerhalb des MSMARCO-Datensatzes sowie bei Out-of-Domain-Retrieval auf TREC-Datensätzen verbessert.