17日前

マルチスケールビジョントランスフォーマー

Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, Christoph Feichtenhofer
マルチスケールビジョントランスフォーマー
要約

動画および画像認識を目的として、マルチスケール特徴階層の画期的なアイデアとトランスフォーマーモデルを統合した「マルチスケールビジョントランスフォーマー(MViT)」を提案する。MViTは、複数のチャネル・解像度スケールステージを有する構造を持ち、入力の解像度と小さなチャネル次元から開始して、階層的にチャネル容量を拡張しながら空間的解像度を低下させる。これにより、初期層は高空間解像度でシンプルな低レベル視覚情報のモデリングを、深層部は粗い空間的解像度だが高次元で複雑な特徴を扱うマルチスケール特徴ピラミッドが構成される。このアーキテクチャの基本的な前提は、視覚信号の密な性質を効果的にモデル化するものであり、様々な動画認識タスクにおいて、大規模な外部事前学習に依存する同時期のビジョントランスフォーマーを上回る性能を発揮する。さらに、計算量およびパラメータ数が5~10倍も増加するこれらのモデルと比較して、高い効率性を実現している。本モデルの時間次元を除去し、画像分類に適用した場合にも、既存のビジョントランスフォーマーを上回る成果を達成した。コードは以下のURLで公開されている:https://github.com/facebookresearch/SlowFast

マルチスケールビジョントランスフォーマー | 最新論文 | HyperAI超神経