
摘要
微动作是一种不易察觉的非言语行为,其特征为低强度运动。它能够揭示个体的情感和意图,在情感识别和心理评估等人本应用中具有重要意义。然而,由于这些细微的人类行为在日常生活中难以察觉且难以获取,因此微动作的识别、区分和理解面临着诸多挑战。在本研究中,我们创新性地收集了一个新的微动作数据集,命名为微动作-52(Micro-action-52, MA-52),并提出了一种用于微动作识别任务的基准模型——微动作网络(Micro-action Network, MANet)。独特之处在于,MA-52 提供了全身视角,包括手势、上肢和下肢的动作,旨在揭示全面的微动作线索。具体而言,MA-52 包含 52 类微动作及七个身体部位标签,并涵盖了从心理访谈中整理出的大量真实自然的微动作实例,涉及 205 名参与者和 22,422 段视频。基于该数据集,我们评估了 MANet 及其他九种流行的动作识别方法。MANet 在 ResNet 架构中引入了挤压激励(Squeeze-and-Excitation, SE)模块和时间移位模块(Temporal Shift Module, TSM),以建模微动作的空间和时间特性。随后设计了一种联合嵌入损失函数,用于视频与动作标签之间的语义匹配;该损失函数有助于更好地区分视觉上相似但实际不同的微动作品类。我们在情感识别领域的扩展应用展示了所提出的数据集和方法的重要价值之一。未来将进一步深入探索人类行为、情感和心理评估等领域。数据集和源代码已发布在 https://github.com/VUT-HFUT/Micro-Action。