17일 전

MetaFormer: 세부 인식을 위한 통합 메타 프레임워크

Qishuai Diao, Yi Jiang, Bin Wen, Jia Sun, Zehuan Yuan
MetaFormer: 세부 인식을 위한 통합 메타 프레임워크
초록

미세 분류 시각 인식(Fine-Grained Visual Classification, FGVC)은 한 상위 카테고리에 속하는 여러 하위 카테고리의 객체를 식별하는 작업을 의미한다. 최근 최첨단 방법들은 이 과제를 해결하기 위해 복잡한 학습 파이프라인을 설계하고 있다. 그러나 시각 정보만으로는 종종 미세 분류 시각 카테고리 간의 정확한 구분이 어렵다. 현재는 이미지와 함께 공간적·시간적 사전 지식, 속성 정보, 텍스트 설명과 같은 메타정보가 자주 제공되고 있다. 이에 따라 다음과 같은 질문을 제기하게 되었다. 다양한 메타정보를 통합적으로 활용하여 미세 분류를 보조할 수 있는 단일하고 간단한 프레임워크를 설계하는 것은 가능한가? 이 문제에 답하기 위해, 우리는 미세 분류 시각 인식을 위한 통합적이고 강력한 메타 프레임워크(MetaFormer)를 제안한다. 실질적으로 MetaFormer은 비전 정보와 다양한 메타정보의 공동 학습을 간단하면서도 효과적으로 해결할 수 있는 접근법을 제공한다. 또한 MetaFormer은 복잡한 기법 없이도 FGVC에 대해 강력한 기준 모델을 제공한다. 광범위한 실험 결과를 통해 MetaFormer이 다양한 메타정보를 효과적으로 활용하여 미세 분류 성능을 향상시킬 수 있음을 입증하였다. 공정한 비교에서, MetaFormer은 단지 비전 정보만을 사용하여 iNaturalist2017 및 iNaturalist2018 데이터셋에서 현재 최고 성능(SoTA) 기법들을 상회하였다. 메타정보를 추가했을 경우, 각각 5.9%, 5.3%의 성능 향상을 기록하며 현재 최고 수준의 접근법을 초월하였다. 또한 CUB-200-2011 및 NABirds 데이터셋에서는 각각 92.3%, 92.7%의 정확도를 달성하여 기존 최고 성능 기법들을 크게 능가하였다. 소스 코드와 사전 학습 모델은 https://github.com/dqshuai/MetaFormer 에 공개되어 있다.

MetaFormer: 세부 인식을 위한 통합 메타 프레임워크 | 최신 연구 논문 | HyperAI초신경