vor 2 Monaten

Neuronale Rangfolgemodelle mit schwacher Überwachung

Mostafa Dehghani; Hamed Zamani; Aliaksei Severyn; Jaap Kamps; W. Bruce Croft

Abstract

Trotz der beeindruckenden Verbesserungen, die von unüberwachten tiefen Neuronalen Netzen in Computer Vision und NLP-Aufgaben erzielt wurden, sind solche Fortschritte im Ranking für Information Retrieval noch nicht beobachtet worden. Der Grund könnte in der Komplexität des Ranking-Problems liegen, da es nicht offensichtlich ist, wie man aus Anfragen und Dokumenten lernen kann, wenn kein überwachtes Signal verfügbar ist. Daher schlagen wir in dieser Arbeit vor, ein neuronales Ranking-Modell unter Verwendung schwacher Überwachung zu trainieren, bei der die Labels automatisch ohne menschliche Annotatoren oder externe Ressourcen (z.B. Klickdaten) generiert werden. Zu diesem Zweck verwenden wir die Ausgabe eines unüberwachten Ranking-Modells, wie zum Beispiel BM25, als schwaches Überwachungssignal. Wir trainieren ferner eine Reihe einfacher jedoch effektiver Ranking-Modelle basierend auf Feed-Forward-Neuronalen Netzen. Wir untersuchen ihre Effektivität unter verschiedenen Lernszenarien (punktweise und paarweise Modelle) und mit unterschiedlichen Eingabedarstellungen (d.h., von der Kodierung von Anfrage-Dokument-Paaren in dichte/sparse Vektoren bis hin zur Verwendung von Wort-Einbettungs-Darstellungen). Unsere Netzwerke werden mit Tens of Millionen von Trainingsinstanzen trainiert und auf zwei Standard-Korpora evaluiert: einer homogenen Nachrichtenkorpora (Robust) und einem heterogenen groß angelegten Web-Korpus (ClueWeb). Unsere Experimente zeigen, dass die Verwendung geeigneter Zielfunktionen und das Erlaubnis den Netzwerken, die Eingabedarstellung auf Basis schwach überwachter Daten zu lernen, zu beeindruckenden Leistungen führt, mit mehr als 13 % und 35 % MAP-Verbesserungen gegenüber dem BM25-Modell auf den Korpora Robust und ClueWeb. Unsere Ergebnisse deuten zudem darauf hin, dass überwachte neuronale Ranking-Modelle stark von einer Vortrainierung auf großen Mengen schwach beschrifteter Daten profitieren können, die leicht aus unüberwachten IR-Modellen gewonnen werden können.