17日前

ResMLP:データ効率的な訓練を用いた画像分類のためのフィードフォワードネットワーク

Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby, Edouard Grave, Gautier Izacard, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, Hervé Jégou
ResMLP:データ効率的な訓練を用いた画像分類のためのフィードフォワードネットワーク
要約

本稿では、画像分類を目的とした完全に多層パーセプトロン(MLP)によって構成されたアーキテクチャ「ResMLP」を提案する。このモデルは、シンプルな残差ネットワークであり、(i)画像パッチ間がチャネルごとに独立かつ同一に相互作用する線形層と、(ii)各パッチごとにチャネル間が独立して相互作用する2層のフィードフォワードネットワークとを交互に配置する構造を持つ。現代的な訓練戦略(特に強力なデータ拡張および optionally ディスティラーションを用いた場合)を適用することで、ImageNet上において驚くべき精度と複雑さのバランスを達成する。さらに、ラベル付きデータセットの使用を排除するため、自己教師付き学習の設定下でもResMLPモデルを訓練した。最後に、モデルを機械翻訳タスクに適応した結果、予想外に優れた性能を発揮した。本研究では、Timmライブラリを基盤とした事前学習済みモデルおよびコードを公開する。

ResMLP:データ効率的な訓練を用いた画像分類のためのフィードフォワードネットワーク | 最新論文 | HyperAI超神経