HyperAIHyperAI

Command Palette

Search for a command to run...

InternImage:変形畳み込みを用いた大規模な視覚基盤モデルの探求

概要

近年、大規模な視覚変換器(ViTs)は著しい進展を遂げている一方で、畳み込みニューラルネットワーク(CNN)に基づく大規模モデルは依然として初期段階にあります。本研究では、ViTsと同様にパラメータ数や学習データの増加によって性能向上を実現可能な、新しい大規模CNNベースの基盤モデル「InternImage」を提案します。近年のCNNは大規模な密なカーネルに注目しているのに対し、InternImageは可変変換(deformable convolution)をコア演算子として採用することで、検出やセグメンテーションなどの下流タスクに必要な広範な有効受容野を維持しつつ、入力情報およびタスク情報に応じた適応的な空間集約が可能になります。その結果、従来のCNNに見られる強い誘導バイアス(inductive bias)を緩和し、ViTsと同様に大規模なパラメータと膨大なデータからより強力で堅牢なパターンを学習することが可能になりました。本モデルの有効性は、ImageNet、COCO、ADE20Kといった難易度の高いベンチマーク上で実証されています。特にInternImage-Hは、COCO test-devで65.4 mAP、ADE20Kでは62.9 mIoUを達成し、現在の最先端のCNNおよびViTを上回る記録を樹立しました。コードはhttps://github.com/OpenGVLab/InternImageにて公開予定です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています