2달 전

다중 모드 지식 전송을 통한 개방형 다중 레이블 분류

He, Sunan ; Guo, Taian ; Dai, Tao ; Qiao, Ruizhi ; Ren, Bo ; Xia, Shu-Tao
다중 모드 지식 전송을 통한 개방형 다중 레이블 분류
초록

실세계 인식 시스템은 종종 미확인 라벨의 문제에 직면합니다. 이러한 미확인 라벨을 식별하기 위해, 다중 라벨 제로샷 학습(ML-ZSL)은 사전 훈련된 텍스트 라벨 임베딩(예: GloVe)을 통해 지식 전송에 초점을 맞춥니다. 그러나 이러한 방법들은 언어 모델에서 단일 모달 지식만 활용하고, 이미지-텍스트 쌍에 내재된 풍부한 의미 정보를 무시합니다. 최근 개발된 오픈 보카브러리(OV) 기반 방법들은 객체 검출에서 이러한 이미지-텍스트 쌍의 정보를 활용하여 인상적인 성능을 달성하였습니다. OV 기반 방법들의 성공에 영감을 받아, 우리는 다중 라벨 분류를 위한 새로운 오픈 보카브러리 프레임워크인 다중 모달 지식 전송(MKT)을 제안합니다. 특히, 우리의 방법은 비전 및 언어 사전 훈련(VLP) 모델을 기반으로 이미지-텍스트 쌍의 다중 모달 지식을 활용합니다. VLP 모델의 이미지-텍스트 매칭 능력을 전송하기 위해, 지식 증류가 사용되어 이미지와 라벨 임베딩 간의 일관성을 보장하며, 프롬프트 조정을 통해 라벨 임베딩을 더욱 업데이트합니다. 여러 객체의 인식을 가능하게 하기 위해, 단순하지만 효과적인 두 스트림 모듈이 개발되어 로컬 및 글로벌 특징을 포착합니다. 광범위한 실험 결과는 우리의 방법이 공개 벤치마크 데이터셋에서 최신 연구 방법들을 크게 능가함을 보여줍니다. 소스 코드는 https://github.com/sunanhe/MKT에서 제공됩니다.

다중 모드 지식 전송을 통한 개방형 다중 레이블 분류 | 최신 연구 논문 | HyperAI초신경