視覚Transformerにおける相対位置符号化の再考と改善

相対位置符号化(Relative Position Encoding, RPE)は、Transformerが入力トークンの順序情報を捉えるために重要な役割を果たす。自然言語処理分野ではその有効性が広く実証されている。一方で、コンピュータビジョン分野におけるRPEの有効性については十分に検討されておらず、さらには議論の余地がある。たとえば、相対位置符号化が絶対位置符号化と同等に機能するかどうかは、未だ明確ではない。この疑問を解消するため、まず既存の相対位置符号化手法をレビューし、視覚Transformer(Vision Transformer)への適用における利点と欠点を分析する。その後、2次元画像に特化した新たな相対位置符号化手法を提案し、これを「画像RPE(image RPE, iRPE)」と呼ぶ。本手法は、方向性を考慮した相対距離のモデリングに加え、自己注意機構におけるクエリと相対位置埋め込みの相互作用を意識した設計を特徴とする。提案するiRPE手法はシンプルかつ軽量であり、Transformerブロックに容易に統合可能である。実験結果から、追加のハイパーパラメータ(学習率や重み減衰率など)のチューニングなしに、DeiTおよびDETRがそれぞれImageNetおよびCOCOデータセットにおいて、オリジナルバージョンと比較してトップ1精度で最大1.5%、mAPで最大1.3%の安定した性能向上を達成することが示された。アブレーションおよび分析を通じて得られた興味深い知見の一部は、従来の理解と矛盾するものも含まれており、新たな視点を提供する。コードおよびモデルは、https://github.com/microsoft/Cream/tree/main/iRPE にてオープンソースとして公開されている。