コアセットを用いたCNNおよびTransformerのデータ効率的な訓練:安定性の視点から

コアセット選択は、CNNの学習時間を短縮する最も効果的な手法の一つであるが、コアセットサイズの変化やデータセット・モデルの選択に応じて得られるモデルの挙動についての理解は依然として限定的である。さらに、近年のトランスフォーマー基盤モデルへのパラダイムシフトを踏まえると、コアセット選択がそれらの性能にどのように影響を与えるかという点についても、まだ明確な答えが得られていない。コアセット選択手法の広範な採用を実現するためには、いくつかの類似した興味深い問いに答える必要があるが、本論文ではその一部を明らかにすることを試みる。我々は体系的なベンチマーク設定を提示し、CNNおよびトランスフォーマーにおいて、さまざまなコアセット選択手法を厳密に比較した。その結果、特定の条件下では、最新の選択手法と比較して、単純なランダム選択がよりロバストかつ安定した性能を示すことが明らかになった。また、データの各クラスにわたって均一なサブセットサンプリングという従来の概念が適切ではないことを示した。むしろ、各クラスのデータ分布の複雑さに基づいてサンプルを適応的に選択すべきである。トランスフォーマーは一般的に大規模なデータセットで事前学習されるが、特定のターゲットデータセットにおいては、極めて小さなコアセットサイズであっても、その性能を安定させることができる。さらに、事前学習が行われない場合、あるいは事前学習済みトランスフォーマーが自然画像以外のデータ(例:医療画像)に適用される場合、CNNは極めて小さなコアセットサイズでもトランスフォーマーよりも優れた一般化性能を示す傾向があることを示した。最後に、適切な事前学習が行われない状況では、CNNが画像内における空間的に離れたオブジェクト間の意味的整合性をより良く学習できることを実証し、コアセットサイズの選択にかかわらず、CNNがほとんどすべての設定でトランスフォーマーを上回ることを示した。