2달 전

차별적 영역 기반 다중 레이블 제로샷 학습

Narayan, Sanath ; Gupta, Akshita ; Khan, Salman ; Khan, Fahad Shahbaz ; Shao, Ling ; Shah, Mubarak
차별적 영역 기반 다중 레이블 제로샷 학습
초록

다중 라벨 제로샷 학습(ZSL)은 자연 이미지에서 여러 객체가 동시에 존재할 수 있으므로 표준 단일 라벨 ZSL보다 더 현실적인 대안입니다. 그러나 다수의 객체 발생은 추론을 복잡하게 만들고, 컨텍스트 정보를 유지하기 위해 지역 특성에 대한 특정 처리가 필요합니다. 우리는 최고의 기존 다중 라벨 ZSL 방법이 모든 클래스에 대해 공통의 주의 맵(attention map)을 사용하여 지역 특성에 주목하는 공유 접근 방식을 취한다는 점을 지적합니다. 이러한 공유 맵은 클래스 수가 많을 때 관련 위치에 차별적으로 집중하지 못하도록 주의력을 흩어놓습니다. 또한 공간적으로 평균화된 시각적 특성을 클래스 의미론으로 매핑하면 클래스 간 특성 얽힘(feature entanglement)이 발생하여 분류를 방해합니다. 이에 우리는 지역 기반 차별성 유지 다중 라벨 제로샷 분류를 위한 대체 접근 방식을 제안합니다. 우리의 접근 방식은 지역 수준 특성을 유지하기 위해 공간 해상도를 보존하며, 지역 및 장면 컨텍스트 정보를 통합하여 특성을 풍부하게 만드는 이중 주의 모듈(BiAM, Bi-level Attention Module)을 활용합니다. 이렇게 풍부해진 지역 수준 특성들은 클래스 의미론으로 매핑되며, 그 다음에는 오직 클래스 예측만이 공간적으로 평균화되어 이미지 수준 예측을 얻습니다. 이를 통해 다중 클래스 특성이 분리된 상태로 유지됩니다. 우리의 접근 방식은 NUS-WIDE와 Open Images 두 개의 대규모 다중 라벨 제로샷 벤치마크에서 새로운 최고 성능을 달성하였습니다. NUS-WIDE에서는 기존 최고 결과와 비교하여 ZSL에 대한 절대적인 mAP(평균 정밀도) 증가율 6.9%를 기록하였습니다.

차별적 영역 기반 다중 레이블 제로샷 학습 | 최신 연구 논문 | HyperAI초신경