HyperAI超神经

探索大规模语言模型与扩散变换器在文本到图像合成中的深度融合

Bingda Tang, Boyang Zheng, Xichen Pan, Sayak Paul, Saining Xie
发布日期: 5/18/2025
探索大规模语言模型与扩散变换器在文本到图像合成中的深度融合
摘要

本文并不介绍一种新方法,而是对近期在文本到图像合成领域取得的重要进展进行了一次全面的探索——具体而言,即大型语言模型(LLMs)和扩散变压器(DiTs)的深度融合在多模态生成中的应用。以往的研究主要关注整体系统性能,而较少进行详细的方法对比,关键的设计细节和训练方案也常常未予公开。这些空白导致了对该方法实际潜力的不确定性。为了填补这些空白,我们进行了关于文本到图像生成的实证研究,通过与已建立的基线进行对照实验,分析了重要的设计选择,并提供了一种清晰且可复现的大规模训练方案。我们希望本项工作能为未来多模态生成领域的研究提供有意义的数据点和实用指导。