2ヶ月前

構造と主題を保った増強による細分化分類の進歩

Michaeli, Eyal ; Fried, Ohad
構造と主題を保った増強による細分化分類の進歩
要約

微細視覚分類(Fine-grained Visual Classification, FGVC)は、密接に関連するサブクラスを分類することを目的としています。この課題は、クラス間の微妙な違いとクラス内の高い変動性により難易度が高くなります。さらに、FGVCデータセットは一般的に小さく、収集が困難であるため、効果的なデータ拡張の必要性が強調されています。最近のテキストから画像へのディフュージョンモデルの進歩は、分類データセットの拡張に新たな可能性をもたらしています。これらのモデルは既に分類タスクの訓練データ生成に使用されてきましたが、FGVCモデルのフルデータセット訓練における有効性についてはまだ十分に検討されていません。最近のテキストから画像生成(Text2Image)や画像から画像生成(Img2Img)を基にした手法では、クラスを正確に表現しながら大幅な多様性を増加させる画像生成が難しいという問題があります。これらの課題に対処するために、我々はSaSPA:構造と主題を保つデータ拡張(Structure and Subject Preserving Augmentation)を提案します。最近の手法とは異なり、当手法では実際の画像を使用せずに行うことで生成の柔軟性を向上させ、より大きな多様性を促進します。クラスの正確な表現を確保するために、画像エッジと主題表現に基づいた条件付けメカニズムを使用しています。我々は広範な実験を行い、SaSPAを従来および最近の生成型データ拡張手法と比較しました。SaSPAは複数の設定において一貫して全ての既存基準を超える性能を示しており、フルデータセット訓練、文脈バイアス、少ショット分類などでの優位性が確認されています。さらに、合成データを使用したFGVCモデルに関する興味深いパターンが明らかになりました。例えば、使用される実際のデータ量と最適な合成データ比率との関係を見出しました。コードはhttps://github.com/EyalMichaeli/SaSPA-Augで公開されています。

構造と主題を保った増強による細分化分類の進歩 | 最新論文 | HyperAI超神経