17일 전

피크 억제 및 지식 안내를 통한 트랜스포머를 활용한 세부 이미지 인식

Xinda Liu, Lili Wang, Xiaoguang Han
피크 억제 및 지식 안내를 통한 트랜스포머를 활용한 세부 이미지 인식
초록

미세한 이미지 인식은 판별적 특징이 일반적으로 단일 이미지 또는 다중 이미지에서 분절되어 나타나기 때문에 도전적인 과제이다. 기존의 대부분의 방법들은 단일 이미지에서 가장 판별력 있는 부분에 초점을 맞추고 있지만, 다른 영역의 유용한 세부 정보를 간과하고, 관련된 다른 이미지들로부터의 판별적 단서를 고려하지 못하는 한계를 가지고 있다. 본 논문에서는 미세한 이미지 인식의 어려움을 새로운 관점에서 분석하고, 단일 이미지 내에서 판별적 특징의 다양성을 존중하며, 다중 이미지 간의 판별적 단서를 통합할 수 있도록 설계된 트랜스포머 아키텍처를 제안한다. 구체적으로, 피크 억제 모듈(peak suppression module)은 입력 이미지를 선형 투영을 통해 순차적인 토큰으로 변환한 후, 트랜스포머 인코더가 생성한 어텐션 응답을 기반으로 특정 토큰을 차단한다. 이 모듈은 특징 학습 과정에서 가장 판별력 있는 부분에 대한 어텐션을 억제함으로써, 간과되었던 영역의 정보 활용을 향상시킨다. 지식 안내 모듈(knowledge guidance module)은 피크 억제 모듈로부터 생성된 이미지 기반 표현과 학습 가능한 지식 임베딩 집합을 비교하여 지식 응답 계수를 도출한다. 이후 이 응답 계수를 분류 점수로 사용하여 지식 학습을 분류 문제로 정식화한다. 학습 과정에서 지식 임베딩과 이미지 기반 표현이 함께 업데이트되며, 이로 인해 각 이미지에 대한 판별적 단서가 지식 임베딩에 포함된다. 마지막으로, 획득한 지식 임베딩을 이미지 기반 표현에 통합하여 종합적인 표현을 생성함으로써, 상당한 성능 향상을 달성한다. 제안된 방법은 6개의 대표적인 데이터셋에서 실시된 광범위한 평가를 통해 그 우수성을 입증하였다.

피크 억제 및 지식 안내를 통한 트랜스포머를 활용한 세부 이미지 인식 | 최신 연구 논문 | HyperAI초신경