
要約
自然言語処理やコンピュータビジョンなどの分野における最近の進展は、膨大な量のラベルなしまたは部分的にラベル付けされたデータを用いて訓練された複雑かつ大規模なモデルに依存しており、こうした最先端の手法をリソース制約環境に適用またはデプロイすることは依然として大きな課題である。銀河の形態は、銀河の形成および進化過程を理解する上で極めて重要である。現代の天文学調査から物理的情報を抽出するためには、銀河形態を効率的に分類する手法が不可欠である。本論文では、少ないデータから学習可能な手法としてAstroformerを提案する。本手法は、CoAtNetやMaxViTの成功に大きなインスピレーションを受けたハイブリッドトランスフォーマー-畳み込みアーキテクチャを採用している。具体的には、ネットワークに新たなスタック設計を適用し、相対自己注意(relative self-attention)層を構築する新たなアプローチを採用するとともに、慎重に選定されたデータ拡張および正則化技術と組み合わせることで、性能を向上させた。我々のアプローチは、17,736枚のラベル付き画像から構成されるGalaxy10 DECalsデータセットにおいて、銀河形態の予測という科学的タスクで新たな最先端性能を達成し、トップ-1精度94.86%を記録。これは、このタスクにおける既存の最先端手法を4.62ポイント上回る結果である。さらに、本手法はCIFAR-100およびTiny ImageNetにおいても新たな最先端性能を達成した。また、大規模データセットで使用されるモデルや学習手法は、データ量が少ない環境ではしばしば十分な性能を発揮しないことが明らかになった。