6ヶ月前

概要

深層の長尾学習は、実世界における不均衡な分布に適した有用なディープネットワークを学習することを目的としており、その際、尾部クラスの大多数のラベルが少数のサンプルにのみ対応している。長尾分布における視覚認識のための判別モデルの学習に関する研究は多数存在するが、本研究では、長尾分布上での条件付き生成対抗ネットワーク（conditional Generative Adversarial Networks, cGAN）という、画像生成モデルの学習に注目する。我々は、認識タスクと同様に、最先端の画像生成手法も尾部クラスにおいて性能の低下を示すことを発見した。この性能低下の主な原因は、尾部クラスにおけるクラス固有のモード崩壊（class-specific mode collapse）であり、その現象が条件付けパラメータ行列のスペクトル爆発（spectral explosion）と相関していることを観察した。そこで、スペクトル爆発を抑制し、モード崩壊を緩和する新たなグループスペクトル正則化項（group Spectral Regularizer, gSR）を提案する。これにより、尾部クラスに対しても多様かつ現実的な画像生成が可能となる。さらに、gSRが既存のオーグメンテーションおよび正則化手法と効果的に組み合わせられ、長尾データ上で最先端の画像生成性能を達成できることを確認した。多数の実験により、異なる不均衡度を持つ長尾データセットにおいて、本正則化項の有効性が明確に示された。

ソースPDF