2ヶ月前

EarthVQA: リレーショナル推論に基づくリモートセンシング視覚質問応答を用いたクエリ可能な地球へ

Wang, Junjue ; Zheng, Zhuo ; Chen, Zihang ; Ma, Ailong ; Zhong, Yanfei
EarthVQA: リレーショナル推論に基づくリモートセンシング視覚質問応答を用いたクエリ可能な地球へ
要約

地球ビジョン研究は通常、ジオスペース上の物体の位置とカテゴリーの抽出に焦点を当てていますが、物体間の関係性や包括的な推論については十分な探索が行われていません。都市計画のニーズに基づき、当研究では多モーダル・マルチタスクVQAデータセット(EarthVQA)を開発し、関係性に基づく判断、カウント、および包括的な分析を進展させることを目指しています。EarthVQAデータセットには6000枚の画像、対応するセマンティックマスク、および都市・農村治理要件が埋め込まれた208,593組の質問回答ペアが含まれています。物体が複雑な関係性推論の基礎となるため、当研究ではSemantic OBject Awarenessフレームワーク(SOBA)を提案し、物体中心的なアプローチでVQAを進展させることを目的としています。SOBAは精緻な空間的位置情報とセマンティクスを保つために、セグメンテーションネットワークを使用して物体セマンティクスを生成します。物体ガイド付き注意機構は擬似マスクを通じて物体内部の特徴を集約し、双方向クロス注意機構は階層的に物体外部の関係性をモデル化します。また、物体カウントの最適化のために動的に差異罰則を追加する数値差損失を提案し、分類と回帰タスクを統一しています。実験結果はSOBAが先進的な一般的な方法およびリモートセンシング方法双方に対して優れた性能であることを示しています。当研究チームはこのデータセットとフレームワークが地球ビジョンにおける複雑な分析に対する強力なベンチマークになると確信しています。プロジェクトページは以下のURLでご覧いただけます: https://Junjue-Wang.github.io/homepage/EarthVQA.

EarthVQA: リレーショナル推論に基づくリモートセンシング視覚質問応答を用いたクエリ可能な地球へ | 最新論文 | HyperAI超神経