17 天前
LOTR:基于定位Transformer的人脸关键点定位
Ukrit Watchareeruetai, Benjaphan Sommana, Sanjana Jain, Pavit Noinongyao, Ankush Ganguly, Aubin Samacoits, Samuel W.F. Earp, Nakarin Sritrakool

摘要
本文提出了一种基于Transformer的新型人脸关键点定位网络,名为定位Transformer(Localization Transformer, LOTR)。该框架采用直接坐标回归策略,利用Transformer网络更充分地挖掘特征图中的空间信息。LOTR模型由三个核心模块构成:1)视觉主干网络,负责将输入图像转换为特征图;2)Transformer模块,用于提升视觉主干网络提取的特征表示能力;3)关键点预测头,直接从Transformer的特征表示中回归出关键点坐标。在输入为裁剪并对齐的人脸图像的前提下,所提出的LOTR可实现端到端的训练,无需任何后处理步骤。本文还引入了一种平滑Wing损失函数(smooth-Wing loss),有效解决了传统Wing损失函数存在的梯度不连续问题,从而在收敛性方面优于L1、L2以及标准Wing损失等常见损失函数。在由“106点人脸关键点定位首届大赛”提供的JD关键点数据集上的实验结果表明,LOTR在排行榜上的表现优于现有方法,以及两种近期基于热图的方法。在WFLW数据集上的实验也显示,所提出的LOTR框架在与多个先进方法的对比中展现出优异的性能。此外,本文还报告了在使用所提出的LOTR进行人脸对齐后,显著提升了当前最先进的人脸识别性能。