17일 전

시각적 질의 응답에서 인간 수준의 성능 달성

Ming Yan, Haiyang Xu, Chenliang Li, Junfeng Tian, Bin Bi, Wei Wang, Weihua Chen, Xianzhe Xu, Fan Wang, Zheng Cao, Zhicheng Zhang, Qiyu Zhang, Ji Zhang, Songfang Huang, Fei Huang, Luo Si, Rong Jin
시각적 질의 응답에서 인간 수준의 성능 달성
초록

시각 질문 응답(VQA, Visual Question Answering) 작업은 이미지의 시각적 정보와 언어적 분석을 함께 활용하여 이미지에 대한 텍스트 기반 질문에 답하는 과제이다. 지난 10년간 실생활 응용 분야가 점차 늘어나면서 이는 인기 있는 연구 주제로 부상하였다. 본 논문에서는 알리바바 DAMO 애카데미의 머신 인텔리전스 랩(Machine Intelligence Lab)에서 개발한 AliceMind-MMU(AliBaba’s Collection of Encoder-decoders from Machine IntelligeNce lab of Damo academy - MultiMedia Understanding)에 대한 최근 연구를 소개한다. 이 모델은 VQA 작업에서 인간 수준 또는 그 이상의 성능을 달성하였으며, 이를 가능하게 한 핵심은 다음과 같은 시스템적인 VQA 파이프라인 개선이다: (1) 포괄적인 시각적 및 텍스트 특징 표현을 활용한 사전 학습; (2) 학습을 통해 주의 집중을 조절하는 효과적인 다중 모달 상호작용; (3) 복잡한 VQA 작업을 위한 전문 전문가 모듈을 갖춘 새로운 지식 채굴 프레임워크. 다양한 유형의 시각적 질문에 각각 적합한 전문 지식을 적용하는 접근 방식은 본 VQA 아키텍처의 성능을 인간 수준까지 끌어올리는 데 중요한 역할을 한다. 본 연구의 효과성을 입증하기 위해 광범위한 실험과 분석을 수행하였으며, 그 결과는 제안된 방법의 우수성을 명확히 보여준다.

시각적 질의 응답에서 인간 수준의 성능 달성 | 최신 연구 논문 | HyperAI초신경