15日前

リモートセンシング画像-テキスト検索のための事前指示表現フレームワーク

{Cong Bai, Qing Ma, Jiancheng Pan}
要約

本稿では、リモートセンシング画像・テキスト検索タスクを対象に、意味ノイズ問題を解決することを目的として、事前知識を活用した指導的表現フレームワーク(Prior Instruction Representation, PIR)を提案する。本研究の主な貢献は、視覚的・テキスト的表現の適応的学習を、事前知識を用いて指導するという新しいアプローチの提案である。具体的には、長距離依存性モデリングを実現し、重要特徴表現を強化するため、空間的・時間的逐次注意エンコーダ(Progressive Attention Encoder, PAE)として、Spatial-PAE と Temporal-PAE の2つの構造を提案する。視覚表現においては、Spatial-PAEに基づく視覚的指導表現(Vision Instruction Representation, VIR)が、リモートセンシングシーン認識に関する事前知識を信念行列を構築することで活用し、重要特徴を選択することで意味ノイズの影響を低減する。テキスト表現においては、Temporal-PAEに基づく言語サイクル注意(Language Cycle Attention, LCA)が、前の時刻の情報を用いて現在の時刻を循環的に活性化することで、テキスト表現能力を向上させる。また、共通部分空間におけるクラス間の混同領域を低減するため、クラスタごとの所属損失(cluster-wise affiliation loss)を提案する。包括的な実験により、事前知識を用いた指導が視覚的・テキスト的表現の向上に寄与し、RSICDおよびRSITMDの2つのベンチマークデータセットにおいて、最先端手法を上回る性能を達成することが示された。

リモートセンシング画像-テキスト検索のための事前指示表現フレームワーク | 最新論文 | HyperAI超神経