2달 전

GKGNet: 그룹 K-최근접 이웃 기반 그래프 합성곱 네트워크를 이용한 다중 레이블 이미지 인식

Yao, Ruijie ; Jin, Sheng ; Xu, Lumin ; Zeng, Wang ; Liu, Wentao ; Qian, Chen ; Luo, Ping ; Wu, Ji
GKGNet: 그룹 K-최근접 이웃 기반 그래프 합성곱 네트워크를 이용한 다중 레이블 이미지 인식
초록

다중 라벨 이미지 인식(Multi-Label Image Recognition, MLIR)은 단일 이미지에서 여러 객체 라벨을 예측하고, 라벨과 이미지 영역 간의 복잡한 관계를 모델링하는 어려운 과제입니다. 컨벌루션 신경망과 비전 트랜스포머는 이미지를 정규화된 픽셀 또는 패치 그리드로 처리하는 데 성공했지만, 이러한 표현은 불규칙하고 연속적이지 않은 관심 영역을 포착하기에 최적화되어 있지 않습니다. 본 연구에서는 의미론적 라벨 임베딩과 이미지 패치 간의 연결을 유연하고 통합된 그래프 구조로 모델링하는 첫 번째 완전 그래프 컨벌루션 모델인 그룹 K-최근접 이웃 기반 그래프 컨벌루션 네트워크(Group K-nearest neighbor based Graph Convolutional Network, GKGNet)를 제시합니다. 다양한 객체의 크기 변동성을 해결하고 다각적인 시각에서 정보를 포착하기 위해, 동적 그래프 구성 및 메시지 전달을 위한 그룹 KGCN 모듈을 제안합니다. 실험 결과, GKGNet은 MS-COCO와 VOC2007 데이터셋 등 도전적인 다중 라벨 데이터셋에서 현저히 낮은 계산 비용으로 최고 수준의 성능을 달성함을 보여주었습니다. 코드는 https://github.com/jin-s13/GKGNet에서 확인할 수 있습니다.

GKGNet: 그룹 K-최근접 이웃 기반 그래프 합성곱 네트워크를 이용한 다중 레이블 이미지 인식 | 최신 연구 논문 | HyperAI초신경