Command Palette

Search for a command to run...

16일 전

대규모 시각-언어 모델에서 환각 현상을 완화하기 위한 텍스트 임베딩의 정제

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

대규모 시각-언어 모델에서 환각 현상을 완화하기 위한 텍스트 임베딩의 정제

초록

본 연구에서는 기존의 대규모 시각-언어 모델(LVLM) 아키텍처가 언어 모달리티 측면에 내재된 편향을 지적한다. 이는 일반적으로 시각적 임베딩을 입력 텍스트 시퀀스 끝에 단순히 붙이는 방식에 기인한 것으로, 이로 인해 언어 모달리티에 과도한 중점을 두는 경향이 발생한다. 이를 해결하기 위해, 평균 풀링을 통해 추출한 시각적 특징을 텍스트 임베딩에 통합함으로써 텍스트 임베딩을 정제하는 간단하면서도 효과적인 방법을 제안한다. 제안한 방법은 기존의 표준 벤치마크에서 시각적 기반(visual grounding) 성능을 뚜렷이 향상시키고, 환상(hallucination) 현상을 상당히 감소시킴을 입증하였다. 평균 풀링은 시각 정보를 통합하는 데 있어 간단하고 강건하며 효율적인 수단을 제공하지만, 더 정교한 융합 기법이 시각적 기반과 다중 모달리티 간의 정렬을 추가로 향상시킬 수 있을 것으로 기대된다. 본 연구의 주요 목적은 모달리티 불균형이 환상 현상에 미치는 영향을 부각시키고, 시각 정보를 텍스트 임베딩에 통합함으로써 이 문제를 완화할 수 있음을 보여주는 데 있다. 따라서 고도의 융합 전략 탐색은 향후 연구 과제로 남긴다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
대규모 시각-언어 모델에서 환각 현상을 완화하기 위한 텍스트 임베딩의 정제 | 연구 논문 | HyperAI초신경