6ヶ月前

データセット

ドキュメント理解

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Matěj Kocián Jakub Náplava Daniel Štancl Vladimír Kadlec

概要

Web検索エンジンは、数百ミリ秒以内に高精度の検索結果を提供することを重視している。そのため、BERTのような事前学習済み言語変換モデルは、その高い計算コストから、このようなシナリオでは利用しづらい。本研究では、BERTを基盤としたシリアス構造を活用したリアルタイム文書ランク付け手法を提案する。このモデルはすでに商用検索エンジンに導入されており、実稼働環境における性能を3%以上向上させている。さらに、今後の研究および評価を支援するため、手動で関連性ラベルが付与された160万件のチェコ語ユーザークエリ－ドキュメントペアから構成される独自のデータセット「DaReCzech」を公開する。また、大規模なチェコ語コーパス上で事前学習されたElectra-small言語モデル「Small-E-Czech」も同時に公開する。これらのデータセットが、検索の関連性研究および多言語を対象とする研究コミュニティのさらなる発展を支えるものと確信している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

データセット

ドキュメント理解

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Matěj Kocián Jakub Náplava Daniel Štancl Vladimír Kadlec

概要

Web検索エンジンは、数百ミリ秒以内に高精度の検索結果を提供することを重視している。そのため、BERTのような事前学習済み言語変換モデルは、その高い計算コストから、このようなシナリオでは利用しづらい。本研究では、BERTを基盤としたシリアス構造を活用したリアルタイム文書ランク付け手法を提案する。このモデルはすでに商用検索エンジンに導入されており、実稼働環境における性能を3%以上向上させている。さらに、今後の研究および評価を支援するため、手動で関連性ラベルが付与された160万件のチェコ語ユーザークエリ－ドキュメントペアから構成される独自のデータセット「DaReCzech」を公開する。また、大規模なチェコ語コーパス上で事前学習されたElectra-small言語モデル「Small-E-Czech」も同時に公開する。これらのデータセットが、検索の関連性研究および多言語を対象とする研究コミュニティのさらなる発展を支えるものと確信している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています