6 个月前

自然语言处理

Matěj Kocián Jakub Náplava Daniel Štancl Vladimír Kadlec

摘要

网络搜索引擎需要在数百毫秒内返回高度相关的结果，而预训练的语言转换模型（如BERT）由于计算开销较大，难以在此类场景中直接应用。为此，我们提出了一种基于BERT的孪生网络架构的实时文档排序方法。该模型已成功部署于某商业搜索引擎中，显著提升了生产环境下的性能，改进幅度超过3%。为进一步推动相关研究与评估，我们发布了DaReCzech数据集——一个包含160万条捷克语用户查询-文档配对的独家数据集，每对数据均经过人工标注的相关性等级。同时，我们还发布了Small-E-Czech，一个在大规模捷克语语料上预训练的Electra-small语言模型。我们相信，这些数据资源将有力支持搜索相关性研究以及多语言方向的研究社区。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Matěj Kocián Jakub Náplava Daniel Štancl Vladimír Kadlec

摘要

网络搜索引擎需要在数百毫秒内返回高度相关的结果，而预训练的语言转换模型（如BERT）由于计算开销较大，难以在此类场景中直接应用。为此，我们提出了一种基于BERT的孪生网络架构的实时文档排序方法。该模型已成功部署于某商业搜索引擎中，显著提升了生产环境下的性能，改进幅度超过3%。为进一步推动相关研究与评估，我们发布了DaReCzech数据集——一个包含160万条捷克语用户查询-文档配对的独家数据集，每对数据均经过人工标注的相关性等级。同时，我们还发布了Small-E-Czech，一个在大规模捷克语语料上预训练的Electra-small语言模型。我们相信，这些数据资源将有力支持搜索相关性研究以及多语言方向的研究社区。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供