17日前

生成対抗ネットワークと顔面ランプマーク検出を用いた細粒度画像分類への道

Mahdi Darvish, Mahsa Pouramini, Hamid Bahador
生成対抗ネットワークと顔面ランプマーク検出を用いた細粒度画像分類への道
要約

細粒度分類は、カテゴリ間の区別に複雑かつ局所的な差異の学習が必要なため、依然として困難な課題である。画像内における物体のポーズ、スケール、位置の多様性が、この問題をさらに複雑化させる。近年のビジョントランスフォーマー(Vision Transformer)モデルは高い性能を達成しているものの、大量の入力データを必要とするという課題を抱えている。この問題に対処するため、本研究ではGANを活用したデータ拡張技術を用いて追加のデータセットインスタンスを生成した。実験に用いたデータセットとして、オックスフォード・IIITペットデータセット(Oxford-IIIT Pets)を選定した。このデータセットは、スケール、ポーズ、照明条件の変動が大きい37種類の猫と犬の品種を含んでおり、分類タスクの難易度を高めている。さらに、最近の生成的対抗ネットワーク(Generative Adversarial Network: GAN)モデルであるStyleGAN2-ADAの性能を向上させ、過学習を防ぎつつより現実的な画像を生成するため、動物の顔面特徴点を予測できるカスタマイズ版MobileNetV2を訓練し、その出力に基づいて画像を適切にクロップした。最後に、合成画像を元のデータセットと統合し、提案手法を標準的なGANによるデータ拡張および拡張なしの条件と比較した。また、異なる学習データサブセットを用いて評価を行い、最近のビジョントランスフォーマー(ViT)モデルを用いた細粒度画像分類の精度を測定することで、本研究の有効性を検証した。