HyperAI超神经
Back to Headlines

日本AI新星崛起:Shisa V2 405B开源模型超越GPT-4,引领日语AI创新潮流

2 days ago

近日,日本一家专注日语微调的初创公司Shisa.AI发布了名为Shisa V2405B的最新模型,这一事件迅速引起了全球科技界的注意。Shisa V2405B是基于Llama 3.1框架开发的开源日英双语模型,被誉为“日本有史以来训练的最强大型语言模型”。在一系列基准测试中,它表现出色,尤其是在日语任务方面,甚至超越了GPT-4及其最新版本GPT-4Turbo,与GPT-4o和DeepSeek-V3在日语任务上的表现相当。 Shisa.AI的核心技术在于其独特的后训练优化方法和高质量的数据集。与早期模型相比,Shisa V2系列放弃了昂贵的持续预训练和分词器扩展,而是集中力量优化后训练流程。通过合成数据驱动的方法,他们显著提升了模型的性能。其核心数据集ultra-orca-boros-en-ja-v1经过严格筛选和优化,被认为是目前最先进的日英双语数据集之一,能够极大地增强基础模型的日语处理能力。 Shisa V2系列包括多个不同参数规模的模型,从小型的7B到巨型的405B,满足了从轻量级设备到高性能计算的多样化需求。这些模型在日语语法、角色扮演和翻译等多个任务中表现出色。特别是在shisa-jp-ifeval(日语指令遵循测试)、shisa-jp-rp-bench(日语角色扮演基准)和shisa-jp-tl-bench(日英翻译基准)等专业评测中,它们均超越了基础模型的表现。此外,Shisa V2405B还融入了少量韩语和繁体中文数据,使其具备了更强的多语言处理能力,为跨语言应用场景带来了新的可能。 为了推动全球AI创新,Shisa.AI秉持开源理念,不仅公开了Shisa V2系列模型,还发布了详细的训练日志。这些日志可在Weights and Biases平台上查看,显示了他们使用AWS Sagemaker的4节点H100集群,结合Axolotl、DeepSpeed和Liger Kernel等多种先进工具和技术,实现了高效的模型开发。公司还计划开源其日语专用基准测试工具,进一步帮助研究人员和开发者评估和改进日语大型语言模型。 Shisa V2405B的发布,不仅是Shisa.AI的一次重大突破,也标志着日本本土AI实验室在全球AI竞争中的崛起。这一成就表明,即使是在资源有限的情况下,小规模团队也能取得显著的科技进步。随着Shisa.AI不断更新其模型和资源,日本在全球AI领域的地位有望进一步巩固。 Shisa.AI成立于东京,致力于开发和部署先进的开源AI语言和语音模型,服务于日本市场。该公司凭借其创新的技术和开放的态度,已经逐渐成为日语AI领域的领军企业,为全球开发者贡献了宝贵的技术资源。

Related Links