17日前
スパースMixture of Expertsを用いたビジョンのスケーリング
Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton, André Susano Pinto, Daniel Keysers, Neil Houlsby

要約
疎にゲート制御されたエキスパートの混合(Sparsely-gated Mixture of Experts, MoE)ネットワークは、自然言語処理分野において優れたスケーラビリティを示している。一方、コンピュータビジョン分野では、ほとんどすべての高性能なネットワークが「密(dense)」構造を採用しており、入力ごとにすべてのパラメータが処理に参加している。本研究では、視覚変換器(Vision Transformer)の疎なバージョンであるV-MoE(Vision MoE)を提案する。これはスケーラブルであり、最大規模の密なネットワークと競合可能な性能を発揮する。画像認識タスクに適用した結果、最先端のネットワークと同等の性能を達成しつつ、推論時の計算量を最大で半分に抑えることが可能となった。さらに、バッチ全体にわたって各入力のサブセットを優先的に処理するルーティングアルゴリズムの拡張を提案し、画像ごとの適応的計算量制御を実現した。これにより、V-MoEはテスト時に性能と計算量の間を滑らかにトレードオフできる。最後に、V-MoEが視覚モデルのスケーリング可能性を有することを実証し、150億パラメータのモデルを訓練。このモデルはImageNet上で90.35%の精度を達成した。