17日前
ネガティブデータ拡張
Abhishek Sinha, Kumar Ayush, Jiaming Song, Burak Uzkent, Hongxia Jin, Stefano Ermon

要約
データ拡張(Data augmentation)は、元のデータ分布に従って生成された合成サンプルを用いてデータセットを拡大する手法として広く用いられている。より多様な拡張を可能にするために、本研究では分布外(out-of-distribution)のサンプルを意図的に生成する「負のデータ拡張戦略(Negative Data Augmentation, NDA)」を検討する。本研究では、このような負の分布外サンプルがデータ分布のサポート(support)に関する情報を提供できることを示し、生成モデルや表現学習に活用可能であることを明らかにする。また、識別器(discriminator)のための追加的な合成データ源としてNDAを用いる新たなGAN学習目的関数を提案する。適切な条件下で、この目的関数を最適化しても真のデータ分布を回復可能であることを理論的に証明するとともに、生成器が望ましい構造を持たないサンプルを直接回避する方向へ偏るようになることを示す。実験的にも、本手法で学習されたモデルは、条件付き/非条件付き画像生成性能および異常検出能力の両面で向上を達成している。さらに、同じNDA戦略を自己教師付き表現学習のための対照学習(contrastive learning)フレームワークに組み込み、画像および動画に対する下流タスク(画像分類、物体検出、行動認識)において性能の向上を実現した。これらの結果から、有効なデータとは何かという事前知識(すなわち、何が無効なデータであるか)は、さまざまな非教師付き学習タスクにおいて効果的な弱教師信号(weak supervision)として機能する可能性があることが示唆される。