
要約
近年、コンピュータビジョン分野では、複雑さが著しく増加する一方で、性能向上はわずかな改善にとどまる傾向が見られる。この流れを逆転させるため、本研究では複雑さを増加させることなく画像分類性能を向上させる新たな手法を提案する。その実現のため、集合学習(ensembling)という強力なアプローチを再検討した。集合学習は、その複雑さや学習時間の長さから適切に活用されていないことが多く、本研究では特定の設計選択により実用的な形に再構築した。具体的には、画像分類において全体的な精度と複雑さのトレードオフが最も優れているとされるEfficientNet-b0モデルを、データの非重複部分集合(すなわちバギング)に対してエンドツーエンドで学習させた。その後、学習可能な結合層の微調整(fine-tuning)により、効率的な適応型集合(adaptive ensemble)を構築した。この手法により、複数の主要なベンチマークデータセットにおいて、パラメータ数は5~60倍、FLOPS(1秒あたりの浮動小数点演算回数)は10~100倍削減しつつ、平均して最先端技術を0.5%の精度向上で上回ることに成功した。