
Vision-Language Pre-Training (VLP) は、画像とテキストのペアを対応付ける能力に有望な成果を示しており、多様なクロスモーダル学習タスクの促進に寄与しています。しかし、我々は VLP モデルが多くの下流タスク(例えば視覚的推論)において重要な視覚的定位能力を欠いていることを観察しました。本研究では、この問題を解決するために新しい位置情報誘導テキストプロンプト (Position-guided Text Prompt: PTP) のパラダイムを提案します。具体的には、VLP フェーズにおいて PTP は画像を $N\times N$ のブロックに分割し、各ブロック内の物体を VLP で一般的に使用される物体検出器によって特定します。その後、モデルに対して与えられたブロック内にある物体を予測するか、または与えられた物体に対応するブロックを回帰させるように促すことで、視覚的定位タスクを穴埋め問題に再定式化します。例えば、「The block P has a O」(ブロック P には O がある)という PTP において「P」や「O」の部分を埋めるような形です。このメカニズムにより、VLP モデルの視覚的定位能力が向上し、さまざまな下流タスクへの対処がより良くなります。いくつかの最先端の VLP フレームワークに PTP を導入した結果、代表的なクロスモーダル学習モデルアーキテクチャや複数のベンチマークにおいて一貫して大幅な改善が見られました。例えば、ViLT \cite{vilt} ベースラインでは zero-shot Flickr30K Retrieval (平均 recall@1 +4.8)、SOTA BLIP \cite{blip} ベースラインでは COCO Captioning (CIDEr +5.3)で改善が確認されました。さらに、PTP は物体検出器ベースの手法と同等の結果を得つつも、推論時に物体検出器を使用しないため後者よりも大幅に高速な推論速度を達成しています。当研究のコードおよび事前学習済み重みは \url{https://github.com/sail-sg/ptp} で公開されます。