HyperAI超神经

ViTに挑戦するCNN：ConvNeXt ViT（Vision Transformer）の登場により、CNN（Convolutional Neural Network）が時代遅れになったとの見方が広く普及しています。しかし、本当にそうでしょうか。Metaの研究者らは、ViTの高性能は主にTransformerアーキテクチャによるものだと思われがちですが、実はモデル設定にも大幅な変更が加えられている可能性があると考えました。彼らは、2015年のResNetアーキテクチャにViTの設定パラメータを適用することで、この仮説を検証しました。 ConvNeXtの誕生 2022年にLiuらによって提案された「A ConvNet for the 2020s」では、ViTの設定をResNetに適用して新たなCNNアーキテクチャであるConvNeXtが誕生しました。このモデルの改善点は、ResNetの設定パラメータを最適化することにより達成されました。具体的内容は以下のような5つの要素に焦点が当てられています：マクロ設計：ステージ比率: ResNet-50の初期精度は78.8%でしたが、Swin-T風のステージ比率（1:1:3:1）を適用することで0.6%向上しました。最初の畳み込み層: Swin Transformerを参考にして、4×4カーネルとストライド4の設定に変更し、精度が79.5%になりました。 ResNeXt化：グループ畳み込み: ResNeXtの手法を取り入れ、同じ数のグループとカーネルを使用したdepthwise畳み込みを適用。モデル容量が低下し精度は78.3%に落ちましたが、ネットワーク幅を増やしたことで80.5%まで回復しました。インバーテッドボトルネック：通常のResNetは、幅が狭い中央部分を通過する流れを取っていましたが、ConvNeXtではこれを逆にして「狭 → 広 → 狭」の構造を取り入れ、精度が80.6%になりました。カーネルサイズ：深さ方向畳み込み層のカーネルサイズを7×7に設定。計算量が減少しながらも80.6%の精度を保ちました。ミクログラム設計：活性化関数: ReLUからGELUに変更し、さらには畳み込みブロック内の活性化関数の使用数を減らしたことにより、精度が81.3%まで向上しました。バッチ正規化: タンクブロック内の最初のpointwise畳み込み前だけに一层のバッチ正規化層を配置。精度が81.4%に上がりました。レイヤー正規化: バッチ正規化に代えてレイヤー正規化を使用することで、0.1%の向上を達成し、最終的に82.0%の精度を記録しました。これらの最適化を通じて、ConvNeXtはSwin-Tを上回る性能（82.0%の精度と4.5 GFLOPSの低計算量）を達成しました。 ConvNeXtの実装 ConvNeXtの実装は、PyTorchを使用して行います。まずは必要なモジュールをインポートします。 python import torch import torch.nn as nn ConvNeXtブロック ConvNeXtブロックは以下のようになっています。 ```python class ConvNeXtBlock(nn.Module): def init(self, num_channels): super().init() hidden_channels = num_channels * 4 self.conv0 = nn.Conv2d(in_channels=num_channels, out_channels=num_channels, kernel_size=7, stride=1, padding=3, groups=num_channels) self.norm = nn.LayerNorm(normalized_shape=num_channels) self.conv1 = nn.Conv2d(in_channels=num_channels, out_channels=hidden_channels, kernel_size=1, stride=1, padding=0) self.gelu = nn.GELU() self.conv2 = nn.Conv2d(in_channels=hidden_channels, out_channels=num_channels, kernel_size=1, stride=1, padding=0) def forward(self, x): residual = x x = self.conv0(x) x = x.permute(0, 2, 3, 1) x = self.norm(x) x = x.permute(0, 3, 1, 2) x = self.conv1(x) x = self.gelu(x) x = self.conv2(x) x = x + residual return x ``` ConvNeXtブロック遷移これは、一段階から次の段階への遷移時に使用されます。 ```python class ConvNeXtBlockTransition(nn.Module): def init(self, in_channels, out_channels): super().init() hidden_channels = out_channels * 4 self.projection = nn.Conv2d(in_channels=in_channels, out_channels=out_channels, kernel_size=1, stride=2, padding=0) self.conv0 = nn.Conv2d(in_channels=in_channels, out_channels=out_channels, kernel_size=7, stride=1, padding=3, groups=in_channels) self.norm0 = nn.LayerNorm(normalized_shape=out_channels) self.conv1 = nn.Conv2d(in_channels=out_channels, out_channels=hidden_channels, kernel_size=1, stride=1, padding=0) self.gelu = nn.GELU() self.conv2 = nn.Conv2d(in_channels=hidden_channels, out_channels=out_channels, kernel_size=1, stride=1, padding=0) self.norm1 = nn.LayerNorm(normalized_shape=out_channels) self.downsample = nn.Conv2d(in_channels=out_channels, out_channels=out_channels, kernel_size=2, stride=2) def forward(self, x): residual = self.projection(x) x = self.conv0(x) x = x.permute(0, 2, 3, 1) x = self.norm0(x) x = x.permute(0, 3, 1, 2) x = self.conv1(x) x = self.gelu(x) x = self.conv2(x) x = x.permute(0, 2, 3, 1) x = self.norm1(x) x = x.permute(0, 3, 1, 2) x = self.downsample(x) x = x + residual return x ``` 全体のConvNeXtアーキテクチャ ConvNeXtの全体像を実装します。 ```python class ConvNeXt(nn.Module): def init(self): super().init() IN_CHANNELS = 3 IMAGE_SIZE = 224 NUM_BLOCKS = [3, 3, 9, 3] OUT_CHANNELS = [96, 192, 384, 768] NUM_CLASSES = 1000 self.stem = nn.Conv2d(in_channels=IN_CHANNELS, out_channels=OUT_CHANNELS[0], kernel_size=4, stride=4) self.normstem = nn.LayerNorm(normalized_shape=OUT_CHANNELS[0]) self.res2 = nn.ModuleList() for _ in range(NUM_BLOCKS[0]): self.res2.append(ConvNeXtBlock(num_channels=OUT_CHANNELS[0])) self.res3 = nn.ModuleList([ConvNeXtBlockTransition(in_channels=OUT_CHANNELS[0], out_channels=OUT_CHANNELS[1])]) for _ in range(NUM_BLOCKS[1] - 1): self.res3.append(ConvNeXtBlock(num_channels=OUT_CHANNELS[1])) self.res4 = nn.ModuleList([ConvNeXtBlockTransition(in_channels=OUT_CHANNELS[1], out_channels=OUT_CHANNELS[2])]) for _ in range(NUM_BLOCKS[2] - 1): self.res4.append(ConvNeXtBlock(num_channels=OUT_CHANNELS[2])) self.res5 = nn.ModuleList([ConvNeXtBlockTransition(in_channels=OUT_CHANNELS[2], out_channels=OUT_CHANNELS[3])]) for _ in range(NUM_BLOCKS[3] - 1): self.res5.append(ConvNeXtBlock(num_channels=OUT_CHANNELS[3])) self.avgpool = nn.AdaptiveAvgPool2d(output_size=(1, 1)) self.normpool = nn.LayerNorm(normalized_shape=OUT_CHANNELS[3]) self.fc = nn.Linear(in_features=OUT_CHANNELS[3], out_features=NUM_CLASSES) self.relu = nn.ReLU() def forward(self, x): x = self.relu(self.stem(x)) x = x.permute(0, 2, 3, 1) x = self.normstem(x) x = x.permute(0, 3, 1, 2) for block in self.res2: x = block(x) for block in self.res3: x = block(x) for block in self.res4: x = block(x) for block in self.res5: x = block(x) x = self.avgpool(x) x = x.permute(0, 2, 3, 1) x = self.normpool(x) x = x.permute(0, 3, 1, 2) x = x.reshape(x.shape[0], -1) x = self.fc(x) return x ``` 関連情報 Metaの研究者によれば、ConvNeXtは単純化と最適化によって、従来のResNetアーキテクチャを基に新しいCNNの可能性を示しました。実際の実装コードはGitHubリポジトリでも公開されていますが、初心者にとってわかりやすくするために、基本的な部分から段階的に説明しました。詳細な実装については、元の論文やGitHubリポジトリをご覧ください。参考文献： - [1] Liu, Z. et al. "A ConvNet for the 2020s." arXiv (2022). - [2] ConvNeXtのGitHubリポジトリ: https://github.com/facebookresearch/ConvNeXt Meta Researchは、ViTがもたらした変革の中でも、CNNの可能性を再評価し、新たな視点を提供しています。この研究は、CNNが依然として有効であることを示しており、今後の研究開発において重要な役割を果たすことが期待されます。

Related Links