11일 전

언어 지침을 활용한 RGB-열화상 세분화를 위한 Segment Anything Model 2의 잠재력 탐구

Zhao, Jiayi, Teng, Fei, Luo, Kai, Zhao, Guoqiang, Li, Zhiyong, Zheng, Xu, Yang, Kailun
언어 지침을 활용한 RGB-열화상 세분화를 위한 Segment Anything Model 2의 잠재력 탐구
초록

로봇 시스템의 인지 능력은 데이터셋의 풍부함에 크게 의존한다. 비록 대규모 데이터셋으로 훈련된 Segment Anything Model 2(SAM2)가 인지 작업에서 강력한 인지 잠재력을 보여주지만, 그 본질적인 훈련 방식으로 인해 RGB-T 작업에 적합하지 않다. 이러한 문제를 해결하기 위해, 우리는 언어 지도를 통해 SAM2의 잠재력을 극대화하고 효율적인 RGB-열화상 인지 능력을 구현하는 새로운 SAM2 기반 하이브리드 상호작용 프레임워크인 SHIFNet을 제안한다. 본 연구의 프레임워크는 두 가지 핵심 구성 요소로 구성된다. (1) 텍스트 지도의 유사도 학습을 통해 모달리티 기여도를 동적으로 조절하는 의미 인지형 다모달 융합(Semantic-Aware Cross-modal Fusion, SACF) 모듈로, SAM2의 본질적인 RGB 편향을 극복한다. (2) 의미 강화 모듈을 통해 전역적 의미 정보를 강화한 후 카테고리 임베딩과 결합하여 다모달 의미 일관성을 증폭하는 이질적 프롬프트 디코더(Heterogeneous Prompting Decoder, HPD) 모듈이다. SHIFNet은 총 3227만 개의 학습 가능한 파라미터를 가짐으로써 공개 벤치마크에서 최신 기술 수준의 세그멘테이션 성능을 달성하였으며, PST900에서는 89.8%, FMB에서는 67.8%의 정확도를 기록하였다. 본 프레임워크는 사전 훈련된 대규모 모델을 RGB-T 세그멘테이션 작업에 효과적으로 적용할 수 있도록 지원하며, 데이터 수집에 따른 높은 비용 문제를 완화하고 로봇 시스템에 포괄적인 인지 능력을 부여한다. 소스 코드는 https://github.com/iAsakiT3T/SHIFNet에서 공개될 예정이다.

언어 지침을 활용한 RGB-열화상 세분화를 위한 Segment Anything Model 2의 잠재력 탐구 | 최신 연구 논문 | HyperAI초신경