2달 전

CLEVR-Ref+: 지시 표현을 활용한 시각적 추론 진단

Runtao Liu; Chenxi Liu; Yutong Bai; Alan Yuille
CLEVR-Ref+: 지시 표현을 활용한 시각적 추론 진단
초록

참조 객체 검출과 참조 이미지 분할은 시각 정보와 자연어를 함께 이해해야 하는 중요한 작업입니다. 그러나 현재 벤치마크 데이터셋이 편향성을 가지고 있으며, 최신 모델들의 중간 추론 과정을 쉽게 평가할 수 없다는 증거가 있습니다. 이러한 문제들을 해결하고 시각 질문 응답에서 유사한 노력들을 보완하기 위해, 우리는 참조 표현 이해를 위한 합성 진단 데이터셋인 CLEVR-Ref+를 구축했습니다. 객체의 정확한 위치와 속성이 쉽게 접근 가능하며, 참조 표현들은 자동으로 기능 프로그램(functional programs)과 연결됩니다. 합성적인 특성은 데이터셋 편향성을 제어(샘플링 전략을 통해)할 수 있게 하며, 모듈화된 프로그램은 인공 주석자 없이 중간 추론의 진실 값을 제공합니다.CLEVR-Ref+에서 여러 최신 모델들을 평가하는 것 외에도, 우리는 IEP-Ref라는 모듈 네트워크 접근 방식을 제안합니다. 이 방법은 우리의 데이터셋에서 다른 모델들보다 크게 우수한 성능을 보입니다. 특히, IEP-Ref를 사용하여 두 가지 흥미롭고 중요한 결과를 제시합니다: (1) 피처 맵을 분할 마스크로 변환하도록 훈련된 모듈은 어떤 중간 모듈에도 연결될 수 있어 전체 추론 과정을 단계별로 밝힐 수 있습니다; (2) 모든 학습 데이터에 적어도 하나의 객체가 언급되어 있더라도, 잘못된 전제 조건이 포함된 참조 표현이 주어졌을 때 IEP-Ref는 배경만 있는 경우를 올바르게 예측할 수 있습니다. 우리所知에 따르면,这是神经模块按预期行为工作的第一个直接且定量的证据。注:最后一句中出现了中文,我将其翻译为韩文如下:우리의 지식에 따르면, 이는 신경망 모듈이 의도대로 작동한다는 첫 번째 직접적이고 양적 증거입니다.

CLEVR-Ref+: 지시 표현을 활용한 시각적 추론 진단 | 최신 연구 논문 | HyperAI초신경