2달 전

시각적 관계 및 속성 검출을 위한 깊은 변이 구조화된 강화 학습

Xiaodan Liang; Lisa Lee; Eric P. Xing
시각적 관계 및 속성 검출을 위한 깊은 변이 구조화된 강화 학습
초록

시각 인식 작업(예: 이미지 분류 및 감지)에서의 진전에도 불구하고, 컴퓨터는 여전히 장면 전체에서 객체 간의 상호 의존성을 이해하는 데 어려움을 겪고 있습니다. 예를 들어, 객체 간의 관계나 속성 등입니다. 기존 방법들은 서로 다른 객체 인스턴스 간의 상호 작용을 포착하는 전역 컨텍스트 큐를 종종 무시하며, 가능한 모든 관계에 대해 개별 검출기를 완전히 훈련시키는 것만으로 몇 가지 유형만 인식할 수 있습니다. 이러한 전역 상호 의존성을 포착하기 위해, 우리는 전체 이미지에서 순차적으로 객체 관계와 속성을 발견하기 위한 깊은 변이 구조화된 강화 학습(VRL) 프레임워크를 제안합니다.먼저, 언어 사전 정보를 사용하여 객체 카테고리, 술어, 속성 간의 의미적 연관성을 표현하는 풍부하고 압축적인 방향 그래프인 지향적 의미 행동 그래프(directed semantic action graph)를 구축합니다. 다음으로, 현재 상태와 이전 행동에 따라 각 단계에서 적응적이면서도 작은 행동 집합을 구성하기 위해 행동 그래프 위에서 변이 구조화된 순회(variation-structured traversal)를 수행합니다. 특히, 객체 검출기가 구분하지 못하는 객체 카테고리 간의 의미적 모호성을 해결하기 위해 모호성 인식 객체 채굴 방안(ambiguity-aware object mining scheme)을 사용합니다.그 후, 우리는 상태 벡터에 전역 컨텍스트 큐와 이전에 추출된 문구의 의미 임베딩(semantic embeddings)을 통합하여 깊은 RL 프레임워크를 사용해 순차적으로 예측합니다. Visual Relationship Detection (VRD) 데이터셋과 대규모 Visual Genome 데이터셋에서 수행한 실험은 VRL이 수천 개의 관계 및 속성 유형을 포함하는 데이터셋에서 현저히 더 우수한 감지 결과를 달성할 수 있음을 입증합니다. 또한 VRL이 공유 그래프 노드에서 연관성을 학습하여 우리의 행동 그래프에 내재된 미처 보지 못한 유형(unseen types)을 예측할 수 있음을 보여줍니다.

시각적 관계 및 속성 검출을 위한 깊은 변이 구조화된 강화 학습 | 최신 연구 논문 | HyperAI초신경