
要約
近年、画像-テキスト検索は急速な発展を遂げている。しかし、リモートセンシング分野では、視覚的・意味的不均衡(visual-semantic imbalance)のため、依然として課題が残っている。この不均衡は、非意味的な視覚特徴とテキスト特徴の誤ったマッチングを引き起こす。この問題を解決するために、本研究では視覚と言語の関係を深く掘り下げるための新しい方向性を考慮した視覚-意味埋め込みモデル「Direction-Oriented Visual-semantic Embedding Model(DOVE)」を提案する。本研究の特徴は、潜在空間における視覚的・テキスト的表現を、冗長性のない局所的視覚表現にできるだけ近づける方向性を導入することにある。具体的には、局所的視覚特徴に基づいて、潜在意味空間における最終的な視覚的・テキスト的埋め込み間の距離を適応的に調整する「Regional-Oriented Attention Module(ROAM)」を設計した。同時に、軽量型の「Digging Text Genome Assistant(DTGA)」を導入し、少ないアテンション操作でテキスト表現のカバー範囲を拡大するとともに、ワードレベルのグローバルな意味的関係を強化している。さらに、最終的な視覚的・テキスト的表現に対して、外部制約としての役割を果たすグローバルな視覚-意味制約を導入することで、単一視覚依存性を低減している。本手法の有効性と優位性は、RSICDおよびRSITMDの2つのベンチマークデータセット上で、パラメータ評価、定量的比較、アブレーションスタディ、視覚的分析を含む広範な実験により検証された。