2달 전

CoHD: 일반화된 지시 표현 분할을 위한 카운팅 인식 계층적 디코딩 프레임워크

Luo, Zhuoyan ; Wu, Yinghao ; Cheng, Tianheng ; Liu, Yong ; Xiao, Yicheng ; Wang, Hongfa ; Zhang, Xiao-Ping ; Yang, Yujiu
CoHD: 일반화된 지시 표현 분할을 위한 카운팅 인식 계층적 디코딩 프레임워크
초록

새로 제안된 일반화된 지시 표현 분할(GRES, Generalized Referring Expression Segmentation)은 복잡한 다중/비대상 시나리오를 포함함으로써 기존의 RES(지시 표현 분할) 공식을 강화합니다. 최근의 접근 방식들은 객체 존재 식별을 통해 잘 채택된 RES 프레임워크를 직접 확장하여 GRES 문제를 해결하고 있습니다. 그러나 이러한 접근 방식들은 다양한 세분도(granularity)를 가진 객체 정보를 단일 표현으로 인코딩하는 경향이 있어, 다른 세분도의 포괄적인 객체를 정확히 표현하기 어려운 문제가 있습니다. 또한, 모든 지시 대상 시나리오에서 간단한 이진 객체 존재 식별은 그들 고유의 차이점을 명시하지 못해 객체 이해에 모호성을 초래합니다.위와 같은 문제들을 해결하기 위해, 우리는 \textbf{Co}unting-\textbf{A}ware \textbf{H}ierarchical \textbf{D}ecoding 프레임워크(CoHD)를 제안합니다. 시각-언어 계층 구조를 통해 복잡한 지시 의미론을 서로 다른 세분도로 분리하고, 내부 및 외부 선택을 동적으로 집계함으로써 CoHD는 계층적 특성의 상호 이점으로 다양한 세분도의 이해력을 향상시키습니다. 또한, 우리는 카운팅 능력을 다중/단일/비대상 시나리오를 개수-및 범주 수준 감독에 통합하여 포괄적인 객체 인식을 촉진합니다.gRefCOCO, Ref-ZOM, R-RefCOCO 및 RefCOCO 벤치마크에서 수행한 실험 결과는 CoHD가 최신 GRES 방법론보다 뚜렷한 마진으로 우월하며, 그 효과성과 합리성을 입증하였습니다. 코드는 \href{https://github.com/RobertLuo1/CoHD}{여기}에서 확인할 수 있습니다.

CoHD: 일반화된 지시 표현 분할을 위한 카운팅 인식 계층적 디코딩 프레임워크 | 최신 연구 논문 | HyperAI초신경