HyperAIHyperAI

Command Palette

Search for a command to run...

MVT: 多視点ビジョントランスフォーマーによる3D物体認識

Shuo Chen Tan Yu Ping Li

概要

画像認識におけるCNNの大きな成功に着想を得て、ビューベースの手法は3次元物体理解のために投影されたビューをモデル化するためにCNNを応用し、優れた性能を達成しました。しかし、マルチビューCNNモデルは異なるビュー間のパッチ間の通信をモデル化することができず、3次元物体認識の効果性が制限されています。最近、ビジョントランスフォーマーが画像認識で得た成功に触発され、3次元物体認識用のマルチビュービジョントランスフォーマー(MVT)を提案します。トランスフォーマーブロック内の各パッチ特徴量がグローバルな受容野を持つため、異なるビュー間のパッチ間の通信を自然に実現することができます。さらに、CNNと比較してはるかに少ない帰納的バイアスを持ちます。効果性と効率性の両方を考え、MVTに対してグローバル-ローカル構造を開発しました。ModelNet40およびModelNet10という2つの公開ベンチマークでの実験結果は、私たちのMVTの競争力のある性能を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています