Command Palette
Search for a command to run...
Siyoon Jin Seongchan Kim Dahyun Chung Jaeho Lee Hyunwook Choi Jisu Nam Jiyoung Kim Seungryong Kim

摘要
视频DiT(Diffusion Transformers)在视频生成领域取得了显著进展,但仍难以有效建模多实例或主体-对象之间的交互关系。这一问题引发了一个关键科学问题:这些模型在内部如何表征交互关系?为回答该问题,我们构建了MATRIX-11K数据集,该数据集包含具备交互感知能力的描述文本以及多实例掩码轨迹。基于此数据集,我们开展了一项系统性分析,从两个视角形式化地刻画视频DiT的机制:一是语义定位(semantic grounding),通过视频到文本的注意力机制,评估名词与动词标记是否能够准确捕捉实例及其相互关系;二是语义传播(semantic propagation),通过视频到视频的注意力机制,检验实例间的绑定关系是否在时间维度上保持一致。研究发现,上述两种效应主要集中于少数几个以交互为主导的网络层中。受此启发,我们提出了MATRIX方法——一种简单而有效的正则化策略,通过将视频DiT中特定层的注意力机制与MATRIX-11K数据集中的多实例掩码轨迹对齐,显著提升了模型的语义定位能力与跨帧传播能力。此外,我们还提出了InterGenEval,一种面向交互感知视频生成的评估协议。实验结果表明,MATRIX在提升交互保真度与语义一致性的同时,有效降低了生成过程中的漂移(drift)与幻觉(hallucination)现象。大量消融实验验证了我们设计选择的有效性。相关代码与模型权重将公开发布。