2달 전

다중 작업 시각적 근거 부여에 대한 거칠기-세부 일관성 제약조건

Dai, Ming ; Li, Jian ; Zhuang, Jiedong ; Zhang, Xian ; Yang, Wankou
다중 작업 시각적 근거 부여에 대한 거칠기-세부 일관성 제약조건
초록

다중 작업 시각적 근거화(Multi-task visual grounding)는 텍스트 표현을 기반으로 이미지에서 위치 추정(localization)과 분할(segmentation)을 동시에 수행하는 것을 의미합니다. 대부분의 고급 방법들은 트랜스포머 기반의 다중 모달 융합(transformer-based multimodal fusion)에 중점을 두고 있으며, 강건한 다중 모달 표현을 추출하는 것을 목표로 합니다. 그러나 참조 표현 이해(Referring Expression Comprehension, REC)와 참조 이미지 분할(Referring Image Segmentation, RIS) 사이의 애매모호함은 오류를 일으키기 쉽고, 이로 인해 다중 작업 예측 간 불일치가 발생합니다. 또한, 부족한 다중 모달 이해는 직접적으로 편향된 대상 인식에 영향을 미칩니다. 이러한 도전 과제를 해결하기 위해, 우리는 암시적 및 명시적 모델링 접근 방식을 두 단계 프레임워크 내에서 통합하는 코스-투-파인 일관성 제약 시각적 근거화 구조(Coarse-to-fine Consistency Constraints Visual Grounding architecture, $\text{C}^3\text{VG}$)를 제안합니다.처음에는 쿼리(query) 및 픽셀(pixel) 디코더가 사용되어 초기 검출 및 분할 결과를 생성하며, 이를 거친 의미론적 인식(Rough Semantic Perception, RSP) 단계라고 합니다. 이러한 조잡한 예측은 이후 마스크 안내 상호 작용 모듈(Mask-guided Interaction Module, MIM)과 새로운 명시적 양방향 일관성 제약 손실(explicit bidirectional consistency constraint loss)을 통해 정교하게 개선되어 각 작업 간의 일관된 표현을 보장하며, 이를 정교한 일관성 상호 작용(Refined Consistency Interaction, RCI) 단계라고 합니다. 또한, 부족한 다중 모달 이해 문제를 해결하기 위해 시각-언어 융합 표현(visual-linguistic fusion representations)을 기반으로 사전 학습된 모델들을 활용합니다.RefCOCO, RefCOCO+, 그리고 RefCOCOg 데이터셋에 대한 경험적인 평가는 $\text{C}^3\text{VG}$의 효과성과 타당성을 입증하며, 이는 현행 최신 REC 및 RIS 방법들보다 크게 우수한 성능을 보입니다. 코드와 모델은 \url{https://github.com/Dmmm1997/C3VG}에서 제공될 예정입니다.

다중 작업 시각적 근거 부여에 대한 거칠기-세부 일관성 제약조건 | 최신 연구 논문 | HyperAI초신경