HyperAIHyperAI

Command Palette

Search for a command to run...

LLM/LLMs、Agent、token、tokensなどの特定用語は英語のまま保持し、翻訳後の内容は流暢でスムーズであり、学術用語に準拠していること。入力された内容のみを出力し、日本語で回答すること。

Xiaohan Ding Xiangyu Zhang Yizhuang Zhou Jungong Han Guiguang Ding Jian Sun

概要

現代の畳み込みニューラルネットワーク(CNN)における大規模カーネル設計について再検討する。近年の視覚変換器(ViT)の進展に触発され、本論文では、従来の小さなカーネルの積層構造に代わって、少数の大きな畳み込みカーネルを用いることがより強力なアーキテクチャ設計のパラダイムであることを示す。これに基づき、再パラメータ化された大規模深度方向畳み込みの適用など、効率的かつ高性能な大カーネルCNNを設計するための5つのガイドラインを提案する。これらのガイドラインに従い、本研究では、従来の3×3カーネルに対して極めて大きな31×31のカーネルを持つ純粋なCNNアーキテクチャ「RepLKNet」を提案する。RepLKNetは、CNNとViTの間の性能ギャップを大幅に縮小し、ImageNetやいくつかの典型的な下流タスクにおいて、Swin Transformerと同等またはそれ以上の性能を達成しつつ、より低い遅延を実現している。また、大規模データおよび大規模モデルへのスケーラビリティも優れており、ImageNetではトップ1精度87.8%、ADE20KではmIoU 56.0%を達成し、同程度のモデルサイズを有する最先端手法と比較しても非常に競争力のある結果を示している。さらに本研究では、小さなカーネルCNNとは異なり、大カーネルCNNははるかに大きな有効受容野(effective receptive field)と、テクスチャバイアスではなく形状バイアス(shape bias)を示すことが明らかになった。コードおよびモデルは、https://github.com/megvii-research/RepLKNet で公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LLM/LLMs、Agent、token、tokensなどの特定用語は英語のまま保持し、翻訳後の内容は流暢でスムーズであり、学術用語に準拠していること。入力された内容のみを出力し、日本語で回答すること。 | 記事 | HyperAI超神経