
要約
ImageNet-1Kは、コンピュータビジョンタスクにおける深層学習モデルの事前学習の主要なデータセットとして広く用いられている。一方、より大規模かつ多様性に富んだImageNet-21Kデータセットは、その複雑さ、アクセスの難しさ、およびその付加価値が過小評価されていることから、事前学習にあまり利用されていないのが現状である。本論文では、こうしたギャップを埋め、ImageNet-21Kにおける高品質かつ効率的な事前学習を誰もが利用可能なものとすることが目的である。専用の前処理ステージの導入、WordNetの階層構造の活用、および新規に提案する「セマンティックソフトマックス(semantic softmax)」と呼ばれる訓練スキームにより、様々なモデルが、小規模なモバイル指向モデルを含む多数のデータセットおよびタスクにおいて、ImageNet-21Kによる事前学習から顕著な恩恵を受けることを示した。また、ViTやMixerといった代表的な新規モデルにおいても、従来のImageNet-21K事前学習手法を上回る性能を達成したことを実証した。本研究で提案する事前学習パイプラインは、効率的かつアクセスしやすく、公開されたデータセットから最先端(SoTA)かつ再現可能な結果を導くことができる。トレーニングコードおよび事前学習済みモデルは、以下のURLにて公開されている:https://github.com/Alibaba-MIIL/ImageNet21K