HyperAI超神经

近日，一家专注于日语微调的人工智能初创公司Shisa.AI发布了其最新的日英双语模型Shisa V2 405B，引发了科技界的广泛关注。这款基于Llama 3.1的开源模型被誉为“日本有史以来训练的最强大型语言模型”，在多个日语基准测试中超越了GPT-4和GPT-4 Turbo，表现与最新的GPT-4o和DeepSeek-V3相当。这标志着日本本土AI实验室在全球竞争中取得了重要突破，同时也为日语AI应用带来了新的可能性。 Shisa.AI总部位于东京，主要致力于为日本市场开发和部署先进的开源AI语言和语音模型。与此前的模型相比，Shisa V2系列不再进行昂贵的持续预训练和分词器扩展，而是集中优化后训练流程。通过合成数据驱动的方法，该公司显著提升了模型性能。尤其是其核心数据集ultra-orca-boros-en-ja-v1，经过严格的数据过滤、再生和重采样，被认为是最强大的日英双语数据集之一，广泛适用于各种场景来提升基础模型的日语能力。这一数据集已在Apache 2.0许可证下免费开放，为全球开发者提供了宝贵的资源。 Shisa V2系列覆盖了从7B到405B参数的不同规模模型，能满足从轻量级设备到高性能计算的多样化需求。这些模型在日语语法、角色扮演、翻译等多个任务中表现优异，尤其是在Shisa V2 405B版本中，该模型在shisa-jp-ifeval（日语指令遵循测试）、shisa-jp-rp-bench（日语角色扮演基准）和shisa-jp-tl-bench（日英翻译基准）等测试中，大幅优于各自的基础模型。值得注意的是，在训练过程中，Shisa V2 405B还融合了少量韩语和繁体中文数据，增强了跨语言能力，为更多应用场景提供了支持。除了高性能的模型外，Shisa.AI还通过开源方式推动了全球AI社区的发展。公司的训练日志已在Weights and Biases平台上公开，整个训练过程使用了AWS SageMaker的4节点H100集群，结合了Axolotl、DeepSpeed和Liger Kernel等前沿技术，确保了高效的模型开发。此外，Shisa.AI计划开源其日语专用基准测试工具，进一步助力日语大型语言模型的研究和评估，为全球开发者提供更多便利。未来，Shisa.AI将继续更新其模型和资源，这不仅意味着日本在全球AI领域地位的进一步提升，也为需要处理复杂日语任务的开发者提供了强有力的支持。AIbase建议相关领域的开发者密切关注Shisa.AI的官方网站和HuggingFace页面，以便及时了解最新的技术动态和模型体验机会。 Shisa.AI的成功证明了即使是在资源相对有限的小型AI实验室，也能在全球竞争中取得一席之地。凭借其在技术上的持续创新和开源共享的精神，Shisa.AI不仅为日语AI的发展做出了重要贡献，还带动了全球AI社区的进步。Shisa.AI此次发布的开源模型和数据集，将为学术研究和商业应用带来更多的可能性，促进日语AI技术的进一步普及和发展。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

日本AI巨头Shisa.AI发布Shisa V2 405B：日英双语模型超越GPT-4，开启新纪元

相关链接

Command Palette

日本AI巨头Shisa.AI发布Shisa V2 405B：日英双语模型超越GPT-4，开启新纪元

相关链接

Command Palette

日本AI巨头Shisa.AI发布Shisa V2 405B：日英双语模型超越GPT-4，开启新纪元

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟