Verdampfte neuronale Netze für effizientes Learning to Rank

Neuere Studien im Bereich des Learning to Rank haben gezeigt, dass es möglich ist, effektiv eine neuronale Netzwerkarchitektur aus einem Ensemble von Regressionsbäumen zu distillieren. Dieser Ansatz macht neuronale Netzwerke zu einer natürlichen Konkurrenz für baumbasierte Ensembles im Ranking-Task. Dennoch übertrumpfen baumbasierte Ensembles neuronale Modelle sowohl hinsichtlich Effizienz als auch Wirksamkeit, insbesondere bei der Bewertung auf CPU. In diesem Paper stellen wir einen Ansatz zur Beschleunigung der neuronalen Bewertungszeit vor, der eine Kombination aus Distillation, Pruning und schneller Matrixmultiplikation nutzt. Wir wenden Knowledge Distillation an, um flache neuronale Netzwerke aus einem Ensemble von Regressionsbäumen zu lernen. Anschließend setzen wir eine auf Effizienz ausgerichtete Pruning-Technik ein, die die rechenintensivsten Schichten des neuronalen Netzwerks verdünnt und anschließend mit optimierter sparser Matrixmultiplikation bewertet. Darüber hinaus untersuchen wir sowohl dichte als auch sparsame Hochleistungs-Matrixmultiplikation und entwickeln ein Modell zur Vorhersage der Bewertungszeit, das hilft, neuronale Netzwerkarchitekturen zu entwerfen, die den gewünschten Effizienz-Anforderungen entsprechen. Umfassende Experimente auf zwei öffentlichen Learning-to-Rank-Datensätzen zeigen, dass neuronale Netzwerke, die mit unserem neuartigen Ansatz erzeugt wurden, bei jedem Punkt der Effektivität-Effizienz-Trade-off-Beziehung mit baumbasierten Ensembles konkurrieren können und dabei bis zu vierfache Beschleunigung der Bewertungszeit erzielen, ohne die Ranking-Qualität zu beeinträchtigen.