OmniGen2:开源多模态生成模型的新突破
8 days ago
在最新发布的科技项目中,研究人员推出了OmniGen2,这是一种开源生成模型,能够处理多种生成任务,如文生图、图片编辑和情境生成。OmniGen2 是其上一版本 OmniGen 的改进版,通过引入两个独立的解码路径来分别处理文本和图像,不仅保持了强大的文本生成能力,还使得模型可以更灵活地与其他现有模态模型协同工作,而无需大幅改动输入结构。 为了训练OmniGen2,研究团队构建了全面的数据管道,专门用于支持图片编辑和情境生成任务。此外,他们开发了一种针对图像生成的独特反射机制,并为此创建了一个专门的数据集,旨在进一步优化模型的图像输出质量。尽管从参数角度来看,OmniGen2 并非是一个巨大的模型,但在诸如文生图和图片编辑这样的任务中依然表现突出。特别是在情境生成(或称主题驱动任务)上,研究者设计了一个新的标准衡量工具——OmniContext基准,通过这一基准测试显示,OmniGen2 在开源模型中达到了顶尖的连贯性水平。 项目背后的团队旨在将其研究成果广泛分享给学界与业界,包括已经训练好的模型、训练代码、数据集以及整个数据管道体系,以此促进未来多模态生成领域的研究与发展。该项目页面和GitHub 仓库链接也已公开,便于任何人访问并参与到此项科研活动中来。 业内专家认为,OmniGen2 的推出对当前多模态预训练研究领域有着重要的积极影响。它不仅代表了跨模态生成技术的一大进步,同时也因其开放共享的精神鼓励了更多开发者和研究者参与进来,共同推进人工智能技术的发展。VectorSpaceLab是一家专注于人工智能尤其是自然语言处理和计算机视觉技术的研究机构,一直以来都致力于推动相关科技的开放创新。
Related Links
Level Up Coding