2달 전

위치 찾기 후 분할: 참조 이미지 분할을 위한 강력한 파이프라인

Jing, Ya ; Kong, Tao ; Wang, Wei ; Wang, Liang ; Li, Lei ; Tan, Tieniu
위치 찾기 후 분할: 참조 이미지 분할을 위한 강력한 파이프라인
초록

참조 이미지 분할은 자연어 표현에 언급된 객체를 분할하는 것을 목표로 합니다. 이전 방법들은 일반적으로 시각-언어 특성을 직접 최종 분할 마스크를 생성하기 위해 암시적이고 반복적인 특성 상호작용 메커니즘을 설계하는 데 초점을 맞추었습니다. 그러나 참조 인스턴스의 위치 정보를 명시적으로 모델링하지 않았습니다. 이러한 문제를 해결하기 위해, 우리는 다른 관점에서 이 작업을 바라보며 "위치 지정 후 분할" (Locate-Then-Segment, LTS) 방식으로 이를 분리하였습니다. 자연어 표현이 주어지면, 사람들은 일반적으로 먼저 해당 대상 이미지 영역에 주목한 다음, 그 객체의 문맥을 기반으로 세부적인 분할 마스크를 생성합니다. LTS는 먼저 시각적 및 텍스트 특성을 추출하고 융합하여 다중 모달 표현을 얻고, 그런 다음 시각-텍스트 특성에 대한 교차 모델 상호작용을 적용하여 위치 정보를 활용해 참조 객체를 찾습니다. 마지막으로 가벼운 분할 네트워크를 사용하여 분할 결과를 생성합니다. 우리의 LTS는 간단하지만 매우 효과적입니다. 세 가지 유명한 벤치마크 데이터셋에서 LTS는 이전 최신 방법들보다 크게 우수한 성능을 보였습니다(예: RefCOCO+에서는 +3.2%, RefCOCOg에서는 +3.4%). 또한, 우리의 모델은 객체 위치를 명시적으로 찾아내므로 해석성이 더 높으며,这一点也通过可视化实验得到了证实。 (最后一句的韩文翻译如下:)这一点也通过可视化实验得到了证实。→这一点也通过可视化实验得到了证实这一点也通过可视化实验得到了证实。 (이 점은 시각화 실험을 통해 입증되었습니다.)우리는 이 프레임워크가 참조 이미지 분할의 강력한 베이스라인으로 작용하는 것이 유망하다고 믿습니다.

위치 찾기 후 분할: 참조 이미지 분할을 위한 강력한 파이프라인 | 최신 연구 논문 | HyperAI초신경