2달 전

고차원 주의 모델을 이용한 시각적 질문 응답

Idan Schwartz; Alexander G. Schwing; Tamir Hazan
고차원 주의 모델을 이용한 시각적 질문 응답
초록

인지 능력을 가능하게 하는 알고리즘을 찾는 것은 기계 학습의 중요한 부분입니다. 최근 연구된 인지 유사 작업들에서 공통적으로 나타나는 특징은 시각적 및 텍스트 입력과 같은 다양한 데이터 모드를 고려한다는 점입니다. 본 논문에서는 다양한 데이터 모드 간의 고차 상관관계를 학습하는 새로운이고 일반적으로 적용 가능한 주의 메커니즘을 제안합니다. 우리는 이 고차 상관관계가 결합 작업을 해결하기 위해 필요한 다른 데이터 모드의 관련 요소에 적절한 주의를 집중시키는 데 효과적임을 보여줍니다. 또한, 시각적 질문 응답(VQA) 작업에서 우리의 고차 주의 메커니즘이 표준 VQA 데이터셋에서 최신 성능을 달성함을 입증합니다.

고차원 주의 모델을 이용한 시각적 질문 응답 | 최신 연구 논문 | HyperAI초신경