9日前

シamese BERTベースモデルによるWeb検索の関連性ランク付け評価:新規チェコ語データセットを用いた検証

Matěj Kocián, Jakub Náplava, Daniel Štancl, Vladimír Kadlec
シamese BERTベースモデルによるWeb検索の関連性ランク付け評価:新規チェコ語データセットを用いた検証
要約

Web検索エンジンは、数百ミリ秒以内に高精度の検索結果を提供することを重視している。そのため、BERTのような事前学習済み言語変換モデルは、その高い計算コストから、このようなシナリオでは利用しづらい。本研究では、BERTを基盤としたシリアス構造を活用したリアルタイム文書ランク付け手法を提案する。このモデルはすでに商用検索エンジンに導入されており、実稼働環境における性能を3%以上向上させている。さらに、今後の研究および評価を支援するため、手動で関連性ラベルが付与された160万件のチェコ語ユーザークエリ-ドキュメントペアから構成される独自のデータセット「DaReCzech」を公開する。また、大規模なチェコ語コーパス上で事前学習されたElectra-small言語モデル「Small-E-Czech」も同時に公開する。これらのデータセットが、検索の関連性研究および多言語を対象とする研究コミュニティのさらなる発展を支えるものと確信している。

シamese BERTベースモデルによるWeb検索の関連性ランク付け評価:新規チェコ語データセットを用いた検証 | 最新論文 | HyperAI超神経