HyperAIHyperAI

Command Palette

Search for a command to run...

リモートセンシング画像-テキスト検索のための事前指示表現フレームワーク

Cong Bai Qing Ma Jiancheng Pan

概要

本稿では、リモートセンシング画像・テキスト検索タスクを対象に、意味ノイズ問題を解決することを目的として、事前知識を活用した指導的表現フレームワーク(Prior Instruction Representation, PIR)を提案する。本研究の主な貢献は、視覚的・テキスト的表現の適応的学習を、事前知識を用いて指導するという新しいアプローチの提案である。具体的には、長距離依存性モデリングを実現し、重要特徴表現を強化するため、空間的・時間的逐次注意エンコーダ(Progressive Attention Encoder, PAE)として、Spatial-PAE と Temporal-PAE の2つの構造を提案する。視覚表現においては、Spatial-PAEに基づく視覚的指導表現(Vision Instruction Representation, VIR)が、リモートセンシングシーン認識に関する事前知識を信念行列を構築することで活用し、重要特徴を選択することで意味ノイズの影響を低減する。テキスト表現においては、Temporal-PAEに基づく言語サイクル注意(Language Cycle Attention, LCA)が、前の時刻の情報を用いて現在の時刻を循環的に活性化することで、テキスト表現能力を向上させる。また、共通部分空間におけるクラス間の混同領域を低減するため、クラスタごとの所属損失(cluster-wise affiliation loss)を提案する。包括的な実験により、事前知識を用いた指導が視覚的・テキスト的表現の向上に寄与し、RSICDおよびRSITMDの2つのベンチマークデータセットにおいて、最先端手法を上回る性能を達成することが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
リモートセンシング画像-テキスト検索のための事前指示表現フレームワーク | 記事 | HyperAI超神経