Siamesischer BERT-basierter Modell für die Relevanzrangordnung in Web-Suchmaschinen, evaluiert anhand einer neuen tschechischen Datensammlung

Web-Suchmaschinen konzentrieren sich darauf, innerhalb von Hundertstelsekunden hochrelevante Ergebnisse bereitzustellen. Prätrainierte Sprachtransformer-Modelle wie BERT sind aufgrund ihrer hohen Rechenanforderungen daher schwer in diesem Kontext einzusetzen. Wir präsentieren unsere Echtzeit-Approach zum Dokument-Ranking, die auf einer BERT-basierten Siamese-Architektur beruht. Das Modell ist bereits in einer kommerziellen Suchmaschine implementiert und verbessert die Produktionsleistung um mehr als 3 %. Für weitere Forschung und Evaluation veröffentlichen wir DaReCzech, einen einzigartigen Datensatz mit 1,6 Millionen Paaren aus tschechischen Nutzerabfragen und Dokumenten, wobei die Relevanz manuell bewertet wurde. Zudem veröffentlichen wir Small-E-Czech, ein auf einer großen tschechischen Korpus vortrainiertes Electra-small-Sprachmodell. Wir sind überzeugt, dass diese Daten Forschungsinitiativen sowohl im Bereich der Suchrelevanz als auch der mehrsprachigen Forschungsgemeinschaft unterstützen werden.