11日前

DiffAug：ドメイン知識不要型拡散ベースデータ拡張を用いた教師なし対照学習の強化

Zelin Zang, Hao Luo, Kai Wang, Panpan Zhang, Fan Wang, Stan.Z Li, Yang You

要約

教師なし対照学習（Unsupervised Contrastive Learning）は、視覚や生物学などの分野において注目を集め、表現学習のための事前に定義されたポジティブ／ネガティブサンプルを活用している。データ拡張は、手動設計型とモデルベース型に分類され、対照学習の性能向上に不可欠な要素として認識されている。しかし、手動設計型の手法はドメイン固有のデータに対する人間の専門知識を必要とし、場合によってはデータの意味を歪めてしまうことがある。一方、生成モデルに基づくアプローチは通常、教師付きデータまたは大規模な外部データを必要とし、多くの分野におけるモデル学習のボトルネックとなっている。上記の課題に対処するため、本論文では、拡散モデル（diffusion model）を用いたポジティブサンプル生成を特徴とする、新たな教師なし対照学習手法「DiffAug」を提案する。DiffAugは、意味表現エンコーダと条件付き拡散モデルから構成され、意味表現を条件として新たなポジティブサンプルを生成し、教師なし対照学習の訓練に活用する。意味表現エンコーダと拡散モデルの反復的な学習により、DiffAugは継続的かつ教師なしの状態で表現能力を向上させる。実験評価の結果、DNA配列、視覚、バイオ特徴データセットにおいて、DiffAugは手動設計型および最先端のモデルベース型データ拡張手法を上回る性能を示した。レビュー用コードは、\url{https://github.com/zangzelin/code_diffaug} にて公開されている。