重新思考多模态扩散变压器中的跨模态交互
Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
发布日期: 6/10/2025

摘要
多模态扩散变压器(Multimodal Diffusion Transformers, MM-DiT)在文本驱动的视觉生成方面取得了显著进展。然而,即使是像FLUX这样的最先进MM-DiT模型,在实现文本提示与生成内容之间的精确对齐方面仍面临挑战。我们确定了MM-DiT注意力机制中的两个关键问题,即1)由于视觉和文本模态之间令牌数量不平衡导致的跨模态注意力抑制,以及2)缺乏时间步长感知的注意力权重调整,这些问题阻碍了对齐效果。为了解决这些问题,我们提出了一种参数高效的温度调整跨模态注意力(Temperature-Adjusted Cross-modal Attention, TACA)方法,该方法通过温度缩放和时间步长依赖的调整动态地重新平衡多模态交互。当与LoRA微调结合时,TACA在T2I-CompBench基准测试中以最小的计算开销显著增强了文本-图像对齐效果。我们在FLUX和SD3.5等最先进模型上测试了TACA,证明了其在对象外观、属性绑定和空间关系方面的图像-文本对齐能力得到了提升。我们的研究结果强调了在提高文本到图像扩散模型的语义保真度方面平衡跨模态注意力的重要性。我们的代码已公开发布于 https://github.com/Vchitect/TACA。