2달 전
시각적 질문 응답을 위한 하드 어텐션 부트스트래핑 학습
Mateusz Malinowski; Carl Doersch; Adam Santoro; Peter Battaglia

초록
생물학적 인식에서 주의 메커니즘은 모든 감각 입력에 대해 수행하기 어려운 고도의 처리를 위해 인식 정보의 일부 집합을 선택하는 것으로 여겨집니다. 그러나 컴퓨터 비전 분야에서는, 정보가 재가중되고 집계되지만 절대로 제외되지 않는 부드러운 주의(soft attention)의 성공에도 불구하고, 일부 정보가 선택적으로 무시되는 강한 주의(hard attention)에 대한 탐구는 상대적으로 적었습니다. 본 연구에서는 새로운 강한 주의 접근법을 소개하고, 최근 발표된 시각적 질문 응답 데이터셋에서 이 방법이 매우 경쟁력 있는 성능을 달성함을 발견했습니다. 이는 유사한 부드러운 주의 아키텍처와 동등하거나 일부 경우에서는 이를 능가하면서도 일부 특징들을 완전히 무시한다는 점에서 의미가 있습니다. 강한 주의 메커니즘이 미분 불가능하다고 여겨지기는 했지만, 우리는 특징 크기가 의미론적 관련성과 상관관계가 있으며, 이 메커니즘의 주의 선택 기준에 유용한 신호를 제공함을 발견했습니다. 강한 주의가 입력 정보의 중요한 특징들을 선택하기 때문에, 유사한 부드러운 주의 메커니즘보다 효율적일 수 있습니다. 특히 최근에는 비국소적인 쌍별 연산을 사용하는 접근 방식들이 증가하고 있는데, 이러한 연산들의 계산 및 메모리 비용은 특징 집합 크기에 따라 2차적으로 증가하므로 이는 더욱 중요합니다.