16日前

InternImage:変形畳み込みを用いた大規模な視覚基盤モデルの探求

Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao
InternImage:変形畳み込みを用いた大規模な視覚基盤モデルの探求
要約

近年、大規模な視覚変換器(ViTs)は著しい進展を遂げている一方で、畳み込みニューラルネットワーク(CNN)に基づく大規模モデルは依然として初期段階にあります。本研究では、ViTsと同様にパラメータ数や学習データの増加によって性能向上を実現可能な、新しい大規模CNNベースの基盤モデル「InternImage」を提案します。近年のCNNは大規模な密なカーネルに注目しているのに対し、InternImageは可変変換(deformable convolution)をコア演算子として採用することで、検出やセグメンテーションなどの下流タスクに必要な広範な有効受容野を維持しつつ、入力情報およびタスク情報に応じた適応的な空間集約が可能になります。その結果、従来のCNNに見られる強い誘導バイアス(inductive bias)を緩和し、ViTsと同様に大規模なパラメータと膨大なデータからより強力で堅牢なパターンを学習することが可能になりました。本モデルの有効性は、ImageNet、COCO、ADE20Kといった難易度の高いベンチマーク上で実証されています。特にInternImage-Hは、COCO test-devで65.4 mAP、ADE20Kでは62.9 mIoUを達成し、現在の最先端のCNNおよびViTを上回る記録を樹立しました。コードはhttps://github.com/OpenGVLab/InternImageにて公開予定です。

InternImage:変形畳み込みを用いた大規模な視覚基盤モデルの探求 | 最新論文 | HyperAI超神経