17일 전

가사: 의미 인지 시각 객체를 통한 세분화된 언어-시각 정렬 및 이해 향상

Junyu Lu, Dixiang Zhang, Songxin Zhang, Zejian Xie, Zhuoyang Song, Cong Lin, Jiaxing Zhang, Bingyi Jing, Pingjian Zhang
가사: 의미 인지 시각 객체를 통한 세분화된 언어-시각 정렬 및 이해 향상
초록

대규모 시각-언어 모델(LVLMs)은 다양한 시각-언어 대화 시나리오에서 놀라운 제로샷(zero-shot) 능력을 보여주었다. 그러나 세밀한 시각적 객체 탐지가 부족함으로 인해 모델은 이미지의 세부 정보를 올바르게 이해하지 못하며, 이를 통해 복구 불가능한 시각적 환각(visual hallucinations)과 사실 오류가 발생한다. 본 논문에서는 세밀한 다중 모달 간 상호작용을 기반으로 시각-언어 정렬을 자가 부트스트래핑하는 새로운 다중 모달 사전 학습 및 지시 미세조정 프레임워크인 Lyrics를 제안한다. BLIP-2의 기반 위에서, Lyrics는 이미지 태깅, 객체 탐지, 의미 세분화 모듈을 포함한 시각적 리파인어(visual refiner)로부터 추출한 국소적 시각 특징을 쿼리 트랜스포머(Querying Transformer)에 통합하며, 텍스트 측면에서는 시각적 리파인어로부터 유도된 경계 상자와 태그를 언어 입력에 포함시킨다. 또한, 사전 학습 단계와 지시 미세조정 단계로 나누어진 이중 단계 학습 전략을 도입하여, 사전 학습 단계에서는 명시적이고 포괄적인 시각-언어 정렬 목표를 통해 모달 간 격차를 해소한다. 지시 미세조정 단계에서는 의미 인지형 시각 특징 추출(semantic-aware visual feature extraction)을 도입하여, 모델이 구체적인 시각적 객체로부터 정보성 있는 특징을 효과적으로 추출할 수 있도록 한다. 제안하는 방법은 다양한 시각-언어 작업에 걸쳐 13개의 데이터셋에서 강력한 성능을 달성하였으며, 11개의 시나리오 기반 벤치마크 툴킷에서 다중 모달 이해, 인지 및 대화 능력 측면에서 유망한 성과를 보여주었다.

가사: 의미 인지 시각 객체를 통한 세분화된 언어-시각 정렬 및 이해 향상 | 최신 연구 논문 | HyperAI초신경