
참조 객체 검출과 참조 이미지 분할은 시각 정보와 자연어를 함께 이해해야 하는 중요한 작업입니다. 그러나 현재 벤치마크 데이터셋이 편향성을 가지고 있으며, 최신 모델들의 중간 추론 과정을 쉽게 평가할 수 없다는 증거가 있습니다. 이러한 문제들을 해결하고 시각 질문 응답에서 유사한 노력들을 보완하기 위해, 우리는 참조 표현 이해를 위한 합성 진단 데이터셋인 CLEVR-Ref+를 구축했습니다. 객체의 정확한 위치와 속성이 쉽게 접근 가능하며, 참조 표현들은 자동으로 기능 프로그램(functional programs)과 연결됩니다. 합성적인 특성은 데이터셋 편향성을 제어(샘플링 전략을 통해)할 수 있게 하며, 모듈화된 프로그램은 인공 주석자 없이 중간 추론의 진실 값을 제공합니다.CLEVR-Ref+에서 여러 최신 모델들을 평가하는 것 외에도, 우리는 IEP-Ref라는 모듈 네트워크 접근 방식을 제안합니다. 이 방법은 우리의 데이터셋에서 다른 모델들보다 크게 우수한 성능을 보입니다. 특히, IEP-Ref를 사용하여 두 가지 흥미롭고 중요한 결과를 제시합니다: (1) 피처 맵을 분할 마스크로 변환하도록 훈련된 모듈은 어떤 중간 모듈에도 연결될 수 있어 전체 추론 과정을 단계별로 밝힐 수 있습니다; (2) 모든 학습 데이터에 적어도 하나의 객체가 언급되어 있더라도, 잘못된 전제 조건이 포함된 참조 표현이 주어졌을 때 IEP-Ref는 배경만 있는 경우를 올바르게 예측할 수 있습니다. 우리所知에 따르면,这是神经模块按预期行为工作的第一个直接且定量的证据。注:最后一句中出现了中文,我将其翻译为韩文如下:우리의 지식에 따르면, 이는 신경망 모듈이 의도대로 작동한다는 첫 번째 직접적이고 양적 증거입니다.