HyperAI超神经

Bielik v3 小型:技术报告

Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej
发布日期: 5/13/2025
Bielik v3 小型:技术报告
摘要

我们介绍了Bielik v3,这是一系列参数高效的生成文本模型(15亿和45亿参数),专门针对波兰语处理进行了优化。这些模型证明了较小且优化良好的架构可以在显著减少计算资源需求的情况下,实现与大型模型相当的性能。我们的方法结合了几项关键创新:自定义波兰语分词器(APT4)大幅提高了分词效率,加权指令交叉熵损失(Weighted Instruction Cross-Entropy Loss)平衡了不同类型指令的学习,以及自适应学习率(Adaptive Learning Rate)根据训练进度动态调整。这些模型在精心策划的包含2920亿个标记、覆盖3.03亿文档的语料库上进行训练,在多个基准测试中表现出色,包括开放波兰语大模型排行榜、复杂波兰语文本理解基准、波兰语EQ-Bench和波兰语医学排行榜。45亿参数的模型在性能上可与比其大2-3倍的模型相媲美,而15亿参数的模型尽管体积非常紧凑,仍表现出强劲的性能。这些进展为低资源语言的参数高效语言建模树立了新的标杆,使得高质量的波兰语AI在资源受限的应用中更加普及。