17 天前

基于生成对抗网络与面部关键点检测的细粒度图像分类

Mahdi Darvish, Mahsa Pouramini, Hamid Bahador
基于生成对抗网络与面部关键点检测的细粒度图像分类
摘要

细粒度分类任务仍具有挑战性,因其需要识别类别间复杂的局部差异。图像中物体在姿态、尺度和位置上的多样性进一步加剧了该问题的难度。尽管近期的视觉Transformer(Vision Transformer, ViT)模型已取得优异性能,但其通常依赖大量输入数据。为应对这一挑战,我们充分利用基于生成对抗网络(GAN)的数据增强技术,生成额外的训练样本。本实验选用Oxford-IIIT Pets数据集,该数据集包含37种猫狗品种,涵盖尺度、姿态和光照条件的显著变化,显著提升了分类任务的难度。此外,我们对最新的生成对抗网络模型StyleGAN2-ADA进行了优化,使其在生成更逼真图像的同时,有效防止对训练集的过拟合。具体方法是:训练一个定制化的MobileNetV2模型以预测动物面部关键点,随后根据关键点对图像进行裁剪。最后,我们将生成的合成图像与原始数据集相结合,并在不同规模的训练子集上,将所提出的方法与标准GAN数据增强以及无数据增强的基线方法进行对比。通过在近期的视觉Transformer(ViT)模型上评估细粒度图像分类的准确率,验证了本方法的有效性。