
초록
지상화 언어 작업을 해결하기 위해서는 주어진 작업의 맥락에서 객체 간의 관계에 대해 추론하는 것이 종종 필요합니다. 예를 들어, "접시 위에 있는 잔의 색깔은 무엇인가?"라는 질문에 답하려면, 접시와 "위에" 관계를 만족하는 특정 잔의 색깔을 확인해야 합니다. 최근 연구에서는 복잡한 관계적 추론이 가능한 다양한 방법들을 제안하였습니다. 그러나 대부분의 경우, 그들의 강점은 추론 구조에 있으며 장면은 단순한 지역적인 외관 특징으로 표현됩니다. 본 논문에서는 다른 접근 방식을 취하여 시각적 장면 내의 객체들에 대한 문맥화된 표현을 구축하여 관계적 추론을 지원하고자 합니다. 우리는 각 노드가 객체를 나타내고, 텍스트 입력에 조건부로 반복 메시지 전달을 통해 관련 객체들로부터 문맥 인식 표현을 얻는 언어 조건부 그래프 네트워크(LCGN, Language-Conditioned Graph Networks)의 일반적인 프레임워크를 제안합니다. 예를 들어, 접시와 "위에" 관계를 조건으로 하여, 객체 "잔"은 객체 "접시"로부터 메시지를 수집하여 그 표현을 "접시 위의 잔"으로 업데이트하며, 이는 간단한 분류기를 통해 답변 예측이 용이하게 이루어질 수 있습니다. 실험적으로 우리의 LCGN 접근 방식이 효과적으로 관계적 추론을 지원하고 여러 작업과 데이터셋에서 성능 향상을 가져오는 것을 보였습니다. 우리의 코드는 http://ronghanghu.com/lcgn에서 제공됩니다.