HyperAIHyperAI

Command Palette

Search for a command to run...

DPT:視覚認識のための変形パッチベース変換器

Zhiyang Chen Yousong Zhu Chaoyang Zhao Guosheng Hu Wei Zeng Jinqiao Wang Ming Tang

概要

Transformerはコンピュータビジョン分野において大きな成功を収めてきたが、画像内のパッチ分割の方法については未解決の課題が残っている。従来の手法では固定サイズのパッチ埋め込みを用いることが多く、これにより物体の意味情報が損なわれる可能性がある。この問題に対処するため、本研究ではデータ駆動型のアプローチにより、事前に定義された固定パッチではなく、位置やスケールが異なるパッチに画像を適応的に分割する「可変パッチ(Deformable Patch, DePatch)」モジュールを提案する。このアプローチにより、パッチ内に含まれる意味情報を効果的に保持することが可能となる。DePatchモジュールは、異なるTransformerモデルに容易に統合可能なプラグアンドプレイ型モジュールとして動作し、エンドツーエンドの学習を実現できる。本手法を組み込んだTransformerを「可変パッチベースTransformer(Deformable Patch-based Transformer, DPT)」と呼ぶ。DPTは画像分類および物体検出のタスクにおいて広範な評価を実施した結果、ImageNet分類タスクでトップ1精度81.9%を達成し、MSCOCO物体検出タスクではRetinaNetで43.7%、Mask R-CNNで44.3%のボックスmAPを達成した。コードは以下のURLで公開されている:https://github.com/CASIA-IVA-Lab/DPT


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています