11日前

言語ガイダンスを用いたRGB-熱赤外画像におけるセマンティックセグメンテーションにおけるSegment Anything Model 2の潜在能力の解明

Zhao, Jiayi, Teng, Fei, Luo, Kai, Zhao, Guoqiang, Li, Zhiyong, Zheng, Xu, Yang, Kailun
言語ガイダンスを用いたRGB-熱赤外画像におけるセマンティックセグメンテーションにおけるSegment Anything Model 2の潜在能力の解明
要約

ロボットシステムの認識能力は、データセットの豊富さに依存しています。Segment Anything Model 2(SAM2)は、大規模なデータセット上で学習されたため、認識タスクにおいて強力な認識能力を示すものの、その固有の学習パラダイム上、RGB-T(可視光・赤外線)タスクに適していないという課題があります。この問題に対処するため、本研究では、言語的ガイダンスを用いてSAM2の潜在能力を引き出す新しいハイブリッドインタラクションパラダイム「SHIFNet」を提案します。本フレームワークは以下の2つの主要な構成要素から成り立ちます:(1)セマンティック感知型クロスモーダル融合(SACF)モジュール。これは、テキスト誘導型の類似度学習により、モーダル間の寄与度を動的に調整することで、SAM2に内在するRGBバイアスを克服します。(2)異種プロンプトデコーダー(HPD)。このモジュールは、セマンティック強化モジュールを介してグローバルなセマンティック情報を強化し、カテゴリ埋め込みと組み合わせることで、クロスモーダル間のセマンティック一貫性を顕著に向上させます。SHIFNetは3227万パラメータの可学習パラメータ数を有し、公開ベンチマークにおいて最先端のセグメンテーション性能を達成。PST900では89.8%、FMBでは67.8%の精度を実現しました。本フレームワークは、事前学習済みの大規模モデルをRGB-Tセグメンテーションタスクに適応させる上で有効であり、データ収集に伴う高コストを効果的に低減するとともに、ロボットシステムに包括的な認識能力を付与します。ソースコードは、https://github.com/iAsakiT3T/SHIFNet にて公開予定です。

言語ガイダンスを用いたRGB-熱赤外画像におけるセマンティックセグメンテーションにおけるSegment Anything Model 2の潜在能力の解明 | 最新論文 | HyperAI超神経