17日前

小規模データセットにおけるテキストから画像生成へのデータ外挿

Senmao Ye, Fei Liu
小規模データセットにおけるテキストから画像生成へのデータ外挿
要約

テキストから画像生成(text-to-image generation)には、高品質な画像を合成するための大規模な学習データが必要である。従来のデータ拡張手法は、クロッピング、反転、ミキシングアップなどのデータ内挿(data interpolation)に依存しており、新たな情報を導入できず、性能向上も限定的であった。本論文では、線形外挿(linear extrapolation)を用いたテキストから画像生成向けの新しいデータ拡張手法を提案する。具体的には、テキスト特徴量に対してのみ線形外挿を適用し、新たに生成されたテキスト特徴量に基づいてインターネット検索エンジンを用いて画像データを取得する。得られたテキスト-画像ペアの信頼性を確保するため、二つの異常値検出器(outlier detectors)を設計し、取得画像のクリーニングを行った。外挿に基づくアプローチにより、オリジナルデータセットの数十倍規模の訓練サンプルを構築でき、テキストから画像生成の性能が顕著に向上した。さらに、スコア推定の精度を向上させるためのNULLガイドランス(NULL-guidance)を提案し、テキスト情報を統合するための再帰的アフィン変換(recurrent affine transformation)を導入した。本モデルは、CUB、Oxford、COCOの各データセットにおいて、それぞれFIDスコア7.91、9.52、5.00を達成した。コードおよびデータはGitHub(https://github.com/senmaoy/RAT-Diffusion)にて公開予定である。

小規模データセットにおけるテキストから画像生成へのデータ外挿 | 最新論文 | HyperAI超神経