HyperAIHyperAI

Command Palette

Search for a command to run...

分割して対比する:未整理データからの自己教師学習

Yonglong Tian Olivier J. Henaff Aaron van den Oord

概要

自己教師あり学習は、大量のラベルなしデータを活用する可能性を秘めており、これまでの進展の多くはImageNetのような高品質に整備された事前学習データに限定されてきた。本研究では、YFCCのようなより大規模で、整備度の低い画像データセットから対照学習(contrastive learning)を行う場合の影響を検討し、得られる表現の質に顕著な差が生じることを明らかにした。この整備ギャップの原因として、画像クラスの分布がより多様かつ重い尾部(heavy-tailed)の特徴を持つことにより、学習に適したネガティブサンプルが不足するという仮説を提示する。この仮説を検証するために、対照学習とクラスタリングに基づくハードネガティブサンプル抽出(hard negative mining)を交互に実行する新しいアプローチ「Divide and Contrast(DnC)」を提案する。整備度の低いデータセット上で事前学習を行う場合、DnCは下流タスクにおける自己教師あり学習の性能を大幅に向上させるとともに、整備されたデータセットにおいても現在の最先端技術と競合する性能を維持する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています