3ヶ月前

DPT:視覚認識のための変形パッチベース変換器

Zhiyang Chen, Yousong Zhu, Chaoyang Zhao, Guosheng Hu, Wei Zeng, Jinqiao Wang, Ming Tang
DPT:視覚認識のための変形パッチベース変換器
要約

Transformerはコンピュータビジョン分野において大きな成功を収めてきたが、画像内のパッチ分割の方法については未解決の課題が残っている。従来の手法では固定サイズのパッチ埋め込みを用いることが多く、これにより物体の意味情報が損なわれる可能性がある。この問題に対処するため、本研究ではデータ駆動型のアプローチにより、事前に定義された固定パッチではなく、位置やスケールが異なるパッチに画像を適応的に分割する「可変パッチ(Deformable Patch, DePatch)」モジュールを提案する。このアプローチにより、パッチ内に含まれる意味情報を効果的に保持することが可能となる。DePatchモジュールは、異なるTransformerモデルに容易に統合可能なプラグアンドプレイ型モジュールとして動作し、エンドツーエンドの学習を実現できる。本手法を組み込んだTransformerを「可変パッチベースTransformer(Deformable Patch-based Transformer, DPT)」と呼ぶ。DPTは画像分類および物体検出のタスクにおいて広範な評価を実施した結果、ImageNet分類タスクでトップ1精度81.9%を達成し、MSCOCO物体検出タスクではRetinaNetで43.7%、Mask R-CNNで44.3%のボックスmAPを達成した。コードは以下のURLで公開されている:https://github.com/CASIA-IVA-Lab/DPT。

DPT:視覚認識のための変形パッチベース変換器 | 論文 | HyperAI超神経