6ヶ月前

概要

本稿では、リモートセンシング画像・テキスト検索タスクを対象に、意味ノイズ問題を解決することを目的として、事前知識を活用した指導的表現フレームワーク（Prior Instruction Representation, PIR）を提案する。本研究の主な貢献は、視覚的・テキスト的表現の適応的学習を、事前知識を用いて指導するという新しいアプローチの提案である。具体的には、長距離依存性モデリングを実現し、重要特徴表現を強化するため、空間的・時間的逐次注意エンコーダ（Progressive Attention Encoder, PAE）として、Spatial-PAE と Temporal-PAE の2つの構造を提案する。視覚表現においては、Spatial-PAEに基づく視覚的指導表現（Vision Instruction Representation, VIR）が、リモートセンシングシーン認識に関する事前知識を信念行列を構築することで活用し、重要特徴を選択することで意味ノイズの影響を低減する。テキスト表現においては、Temporal-PAEに基づく言語サイクル注意（Language Cycle Attention, LCA）が、前の時刻の情報を用いて現在の時刻を循環的に活性化することで、テキスト表現能力を向上させる。また、共通部分空間におけるクラス間の混同領域を低減するため、クラスタごとの所属損失（cluster-wise affiliation loss）を提案する。包括的な実験により、事前知識を用いた指導が視覚的・テキスト的表現の向上に寄与し、RSICDおよびRSITMDの2つのベンチマークデータセットにおいて、最先端手法を上回る性能を達成することが示された。

ソースPDF コードを表示