2 个月前
ARBEx:基于注意力机制和可靠性平衡的鲁棒面部表情特征提取方法
Wasi, Azmine Toushik ; Šerbetar, Karlo ; Islam, Raima ; Rafi, Taki Hasan ; Chae, Dong-Kyu

摘要
本文介绍了一种名为ARBEx的新框架,这是一种基于视觉变换器(Vision Transformer)的新型注意力特征提取框架,通过可靠性平衡来应对面部表情学习(FEL)任务中的不良类别分布、偏差和不确定性问题。我们强化了多种数据预处理和精炼方法,并结合基于窗口的交叉注意力机制的视觉变换器(ViT),以最大限度地挖掘数据潜力。此外,我们在嵌入空间中引入了可学习的锚点,并结合标签分布和多头自注意力机制,以优化针对弱预测的性能并实现可靠性平衡。这一策略利用锚点、注意力分数和置信度值来增强标签预测的鲁棒性。为了确保正确的标签分类并提高模型的判别能力,我们引入了锚点损失(anchor loss),该损失鼓励锚点之间的大间隔。同时,多头自注意力机制也是可训练的,在识别准确标签方面发挥着重要作用。这种方法为提高预测可靠性提供了关键要素,并对最终预测能力产生了显著的积极影响。我们的自适应模型可以与任何深度神经网络集成,以预防各种识别任务中的挑战。根据在不同情境下进行的广泛实验,我们的策略优于当前最先进的方法。