Command Palette
Search for a command to run...
LLM/LLMs、Agent、token、tokensなどの特定用語は英語のまま保持し、翻訳後の内容は流暢でスムーズであり、学術用語に準拠していること。入力された内容のみを出力し、日本語で回答すること。
LLM/LLMs、Agent、token、tokensなどの特定用語は英語のまま保持し、翻訳後の内容は流暢でスムーズであり、学術用語に準拠していること。入力された内容のみを出力し、日本語で回答すること。
Xiaohan Ding Xiangyu Zhang Yizhuang Zhou Jungong Han Guiguang Ding Jian Sun
概要
現代の畳み込みニューラルネットワーク(CNN)における大規模カーネル設計について再検討する。近年の視覚変換器(ViT)の進展に触発され、本論文では、従来の小さなカーネルの積層構造に代わって、少数の大きな畳み込みカーネルを用いることがより強力なアーキテクチャ設計のパラダイムであることを示す。これに基づき、再パラメータ化された大規模深度方向畳み込みの適用など、効率的かつ高性能な大カーネルCNNを設計するための5つのガイドラインを提案する。これらのガイドラインに従い、本研究では、従来の3×3カーネルに対して極めて大きな31×31のカーネルを持つ純粋なCNNアーキテクチャ「RepLKNet」を提案する。RepLKNetは、CNNとViTの間の性能ギャップを大幅に縮小し、ImageNetやいくつかの典型的な下流タスクにおいて、Swin Transformerと同等またはそれ以上の性能を達成しつつ、より低い遅延を実現している。また、大規模データおよび大規模モデルへのスケーラビリティも優れており、ImageNetではトップ1精度87.8%、ADE20KではmIoU 56.0%を達成し、同程度のモデルサイズを有する最先端手法と比較しても非常に競争力のある結果を示している。さらに本研究では、小さなカーネルCNNとは異なり、大カーネルCNNははるかに大きな有効受容野(effective receptive field)と、テクスチャバイアスではなく形状バイアス(shape bias)を示すことが明らかになった。コードおよびモデルは、https://github.com/megvii-research/RepLKNet で公開されている。