HyperAIHyperAI

Command Palette

Search for a command to run...

Wave-ViT:ウェーブレットとTransformerを統合した視覚表現学習

Ting Yao Yingwei Pan Yehao Li Chong-Wah Ngo Tao Mei

概要

マルチスケールビジョントランスフォーマー(ViT)は、コンピュータビジョンタスクにおける強力なバックボーンとして注目を集めている一方で、トランスフォーマーにおける自己注意(self-attention)計算は、入力パッチ数に対して二次的に増加するという課題を抱えている。そのため、従来の手法では、計算コストを大幅に削減するために、キー(keys)およびバリュー(values)に対してダウンサンプリング操作(例えば平均プーリング)を適用する傾向にある。本研究では、このような過度に激しいダウンサンプリング設計は逆変換が不可能であり、特に物体内の高周波成分(たとえばテクスチャの詳細)において情報の損失が避けられないことについて指摘する。この問題に着目し、ウェーブレット理論を基盤として、逆変換可能なダウンサンプリングをウェーブレット変換と自己注意学習の統一的な枠組みで定式化した新しいモデル「Wavelet Vision Transformer(Wave-ViT)」を提案する。本手法により、キーおよびバリューに対する無損失のダウンサンプリングを実現しつつ自己注意学習を可能にすることで、効率性と精度のバランスをより良好に達成することが可能となる。さらに、逆ウェーブレット変換を活用して、受容場を拡大した局所的文脈を統合することで、自己注意の出力を強化する。Wave-ViTの優位性は、画像認識、物体検出、インスタンスセグメンテーションなど、複数のビジョンタスクにおいて広範な実験を通じて検証された。その性能は、同等のFLOPs(浮動小数点演算回数)を有する最先端のViTバックボーンを上回っている。ソースコードは以下のURLから公開されている:\url{https://github.com/YehLi/ImageNetModel}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています