HyperAIHyperAI

Command Palette

Search for a command to run...

集約型ピラミッドビジョントランスフォーマー:畳み込みを用いない画像認識のためのスプリット・トランスフォーム・マージ戦略

Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang

概要

自然言語処理分野におけるTransformerの成果を踏まえ、Transformerに搭載されたエンコーダ・デコーダ構造およびアテンション機構は、コンピュータビジョン分野へと応用されつつある。近年、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、コンピュータビジョンの多様なタスクにおいて、最先端の畳み込みニューラルネットワーク(CNN)がTransformerの一部の概念を取り入れるようになってきた。これは、Transformerが画像認識分野において極めて有望な技術であることを示している。Vision Transformer(ViT)が提案されて以降、より多くの研究が自己アテンション機構を用いて畳み込み層を完全に置き換えるアプローチを採用するようになった。本研究は、Vision Transformerをベースとし、ピラミッド構造を組み合わせ、Split-transform-merge戦略を用いてグループエンコーダを設計した。このネットワークアーキテクチャを「Aggregated Pyramid Vision Transformer(APVT)」と命名した。CIFAR-10データセットを用いた画像分類およびCOCO 2017データセットを用いたオブジェクト検出の実験を通じて、Transformerをバックボーンとして用いる他のネットワークアーキテクチャと比較して、APVTは計算コストを低減しつつ優れた性能を達成した。本研究で提案する改善戦略が、今後のコンピュータビジョンにおけるTransformer研究の参考となることを期待している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています