HyperAIHyperAI

Command Palette

Search for a command to run...

ドメイン一致型プレトレーニングタスクによるディンスリトリーバル

概要

モデルサイズの拡大と、より大規模なデータセットへの事前学習は、現在、自然言語処理(NLP)のほぼすべてのタスクにおいて性能向上をもたらす確立された手法となっている。しかし、情報検索(Information Retrieval)分野においては、追加の事前学習がこれまで明確な成果をもたらさなかったという顕著な例外がある。本研究では、適切な事前学習設定を採用することで、この障壁を克服可能であることを示す。具体的には、1)最近公開された6500万件の合成生成質問データセット、および2)pushshift.ioによって提供されたReddit会話データセットから抽出された2億件の投稿-コメントペアを用いて、大規模なバイエンコーダー・モデルの事前学習を実施する。これらのモデルを情報検索および対話型情報検索のベンチマークで評価した結果、従来の教師あり学習ベースラインに対して顕著な性能向上が得られた。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています