
トランスフォーマーは最近、コンピュータビジョン分野でますます注目を集めています。しかし、既存の研究では主に画像分類や密集予測などの特徴表現学習にトランスフォーマーが使用されており、その汎化性能については未知数です。本研究では、画像対を用いた画像マッチングと計量学習へのトランスフォーマーの適用可能性についてさらに調査を行いました。我々は、ビジョントランスフォーマー(ViT)やデコーダ付きの通常のトランスフォーマーが、画像間の注意機構を欠いているため、画像マッチングには適していないことを発見しました。したがって、ViTにおけるクエリ-ギャラリー連結と、通常のトランスフォーマーにおけるクエリ-ギャラリークロス注意という2つの基本的な解決策を設計しました。後者の方が性能が向上しますが、依然として制限があります。これは、トランスフォーマーの注意機構が主にグローバルな特徴集合のために設計されており、画像マッチングには自然には適していないことを示唆しています。これに対応して、ソフトマックス重み付けを使用した完全な注意機構を省略し、クエリ-キー類似度計算のみを保持する新しい簡素化されたデコーダを提案しました。さらに、グローバル最大プーリングとマルチレイヤーパーセプトロン(MLP)ヘッドを使用してマッチング結果をデコードします。この方法により、簡素化されたデコーダは計算効率が高く、同時に画像マッチングにもより効果的となります。提案手法であるTransMatcherは汎化可能な人物再識別において最先端の性能を達成しており、いくつかの人気のあるデータセット上でRank-1精度とmAPにおいてそれぞれ最大6.1%および5.7%の性能向上を達成しています。コードは https://github.com/ShengcaiLiao/QAConv で入手可能です。