
摘要
喷流标记是粒子物理学中一个关键但具有挑战性的分类任务。尽管深度学习已经彻底改变了喷流标记并显著提高了性能,但缺乏大规模公开数据集阻碍了进一步的提升。在本研究中,我们介绍了JetClass,这是一个新的全面的喷流标记数据集。JetClass数据集包含1亿个喷流样本,比现有的公开数据集大两个数量级。共模拟了10种类型的喷流,包括几种尚未用于标记的新类型。基于这一大规模数据集,我们提出了一种新的基于Transformer的架构用于喷流标记,称为粒子Transformer(Particle Transformer,简称ParT)。通过在注意力机制中引入成对粒子相互作用,ParT实现了比普通Transformer更高的标记性能,并大幅超越了之前的最先进方法——ParticleNet。经过微调的预训练ParT模型也在两个广泛采用的喷流标记基准测试中显著提升了性能。该数据集、代码和模型均已在https://github.com/jet-universe/particle_transformer 公开发布。