DiffAug: Verbesserung von unsupervised Contrastive Learning durch domainspezifizierungsunabhängige, diffusionbasierte Datenaugmentation

Unsupervised Contrastive Learning hat in Bereichen wie Vision und Biologie an Bedeutung gewonnen und nutzt vorgegebene positive und negative Stichproben für die Darstellungslernung. Die Datenaugmentation, die in handgestaltete und modellbasierte Methoden unterteilt wird, ist als entscheidender Bestandteil zur Verbesserung des Contrastive Learning identifiziert worden. Handgestaltete Ansätze erfordern jedoch fachspezifisches menschliches Wissen zur Datenbearbeitung und können gelegentlich die Bedeutung der Daten verzerren. Im Gegensatz dazu benötigen modellbasierte Ansätze zur Generierung, wie beispielsweise Generativmodelle, oft überwachte oder großskalige externe Daten, was sich in vielen Anwendungsbereichen als Engpass bei der Modelltrainierung herausstellt. Um diese Probleme zu adressieren, stellt dieser Artikel DiffAug vor – eine neuartige, unsupervised Contrastive Learning-Technik, die auf einer Diffusionsmodell-basierten Generierung positiver Daten beruht. DiffAug besteht aus einem semantischen Encoder und einem bedingten Diffusionsmodell; das bedingte Diffusionsmodell erzeugt neue positive Stichproben basierend auf der semantischen Kodierung, um das Training des unsupervised Contrastive Learning zu unterstützen. Durch die iterative Verbesserung des semantischen Encoders und des Diffusionsmodells wird die Darstellungsfähigkeit kontinuierlich und ohne Überwachung gesteigert. Experimentelle Evaluierungen zeigen, dass DiffAug sowohl handgestaltete als auch state-of-the-art modellbasierte Augmentationsmethoden auf DNA-Sequenz-, Bild- und Bio-Feature-Datensätzen übertrifft. Der Quellcode zur Überprüfung ist unter \url{https://github.com/zangzelin/code_diffaug} verfügbar.