2달 전

시각적 맥락을 위한 동적 트리 구조 학습

Kaihua Tang; Hanwang Zhang; Baoyuan Wu; Wenhan Luo; Wei Liu
시각적 맥락을 위한 동적 트리 구조 학습
초록

우리는 이미지 내의 객체들을 시각적 맥락에 배치하여 장면 그래프 생성 및 시각적 Q&A와 같은 시각적 추론 작업을 돕기 위한 동적인 트리 구조를 제안합니다. 이 시각적 맥락 트리 모델을 VCTree라고 명명하였으며, 기존의 연결 구조와 완전 연결 그래프를 포함한 구조화된 객체 표현보다 두 가지 주요 장점을 가지고 있습니다: 1) 효율적이고 표현력이 뛰어난 이진 트리가 객체들 간의 본질적인 병렬/계층 관계를 인코딩합니다. 예를 들어, "옷"과 "바지"는 일반적으로 함께 나타나며 "사람"에 속합니다; 2) 동적인 구조는 이미지마다, 작업마다 다르게 변하며, 객체들 사이에서 더 내용-/작업 특화된 메시지 전달을 가능하게 합니다.VCTree를 구성하기 위해, 각 객체 쌍 간의 작업 종속 유효성을 계산하는 점수 함수를 설계하였습니다. 트리는 점수 행렬에서 최대 스패닝 트리의 이진 버전입니다. 그런 다음, 양방향 TreeLSTM을 통해 시각적 맥락이 인코딩되고 작업 특화 모델로 디코딩됩니다. 우리는 엔드 태스크 감독 학습과 트리 구조 강화 학습을 통합한 하이브리드 학습 절차를 개발하였으며, 전자의 평가 결과가 후자의 구조 탐색에 대한 자기 비판(self-critic) 역할을 합니다.두 벤치마크인 Visual Genome(장면 그래프 생성)과 VQA2.0(시각적 Q&A)에서 수행한 실험 결과는 VCTree가 최신 연구 결과를 능가하면서 해석 가능한 시각적 맥락 구조를 발견함을 보여줍니다.

시각적 맥락을 위한 동적 트리 구조 학습 | 최신 연구 논문 | HyperAI초신경