HyperAIHyperAI

Command Palette

Search for a command to run...

MViTv2:分類および検出のための改良されたマルチスケールビジョンTransformer

Yanghao Li Chao-Yuan Wu Haoqi Fan Karttikeya Mangalam Bo Xiong Jitendra Malik Christoph Feichtenhofer

概要

本稿では、画像分類・動画分類および物体検出の統一アーキテクチャとして、マルチスケールビジョン変換器(MViTv2)の研究を行う。我々は、分解型相対的位置埋め込み(decomposed relative positional embeddings)とリジッドプーリング接続(residual pooling connections)を導入した、MViTの改良版を提示する。このアーキテクチャを5つのサイズに実装し、ImageNet分類、COCO物体検出、Kinetics動画認識の3つのタスクにおいて評価した結果、既存の手法を上回る性能を示した。さらに、MViTv2のプーリングアテンション(pooling attention)とウィンドウアテンション(window attention)機構を比較したところ、計算量に対する精度(accuracy/compute)の面で、MViTv2が優れていることが明らかになった。ノイズのないシンプルな設定でも、MViTv2は以下の3つの分野で最先端の性能を達成している:ImageNet分類では88.8%の精度、COCO物体検出では58.7 boxAP、Kinetics-400動画分類では86.1%の精度を記録した。コードおよびモデルは、https://github.com/facebookresearch/mvit にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MViTv2:分類および検出のための改良されたマルチスケールビジョンTransformer | 記事 | HyperAI超神経