2달 전

MAttNet: 모듈러 어텐션 네트워크를 이용한 지시 표현 이해

Yu, Licheng ; Lin, Zhe ; Shen, Xiaohui ; Yang, Jimei ; Lu, Xin ; Bansal, Mohit ; Berg, Tamara L.
MAttNet: 모듈러 어텐션 네트워크를 이용한 지시 표현 이해
초록

본 논문에서는 참조 표현 이해에 대해 다룹니다: 자연어 표현으로 설명된 이미지 영역을 위치시키는 문제입니다. 최근의 대부분 연구가 표현을 단일 단위로 취급하는 반면, 우리는 주제의 외관, 위치 및 다른 객체와의 관계와 관련된 세 가지 모듈식 구성 요소로 이를 분해하는 방법을 제안합니다. 이는 우리에게 다양한 유형의 정보를 포함하는 표현을 단일 프레임워크에서 유연하게 적응할 수 있는 기회를 제공합니다. 우리가 MAttNet(모듈러 어텐션 네트워크)이라고 부르는 모델에서는 두 가지 유형의 어텐션이 활용됩니다: 언어 기반 어텐션은 각 모듈이 집중해야 할 단어/구문 어텐션과 모듈 가중치를 학습하며, 시각적 어텐션은 주제와 관계 모듈이 관련 이미지 구성 요소에 집중할 수 있도록 합니다. 모듈 가중치는 세 가지 모듈로부터 동적으로 점수를 결합하여 전체 점수를 출력합니다. 실험 결과, MAttNet은 경계 상자 수준과 픽셀 수준 이해 작업 모두에서 이전 최신 방법론보다 크게 우수한 성능을 보였습니다. 데모와 코드가 제공되었습니다.

MAttNet: 모듈러 어텐션 네트워크를 이용한 지시 표현 이해 | 최신 연구 논문 | HyperAI초신경