Command Palette

Search for a command to run...

22일 전

다중모달 프롬프트 최적화: 왜 다중 모달을 활용하지 않을까? MLLMs를 위해

Yumin Choi Dongki Kim Jinheon Baek Sung Ju Hwang

다중모달 프롬프트 최적화: 왜 다중 모달을 활용하지 않을까? MLLMs를 위해

초록

대규모 언어 모델(LLM)은 놀라운 성과를 보여왔으며, 이를 확장한 다중모달 확장 모델(MLLM)은 텍스트 외에도 이미지, 영상 등 다양한 모달리티에 걸쳐 새로운 능력을 구현하고 있다. 그러나 이러한 전환에도 불구하고, 수동적인 프롬프트 설계 부담을 줄이고 성능을 극대화하기 위해 개발된 프롬프트 최적화 기법은 여전히 텍스트 영역에 국한되어 있어, MLLM의 잠재력을 최대로 발휘하는 데 한계를 겪고 있다. 이러한 격차를 보완하고자, 본 연구는 텍스트와 비텍스트 프롬프트 쌍으로 정의되는 다중모달 공간으로 프롬프트 최적화의 기존 정의를 확장하는 새로운 문제인 '다중모달 프롬프트 최적화'를 제안한다. 이를 해결하기 위해, 일관성 유지 업데이트를 통해 다중모달 프롬프트를 공동 최적화하는 동시에, 베이지안 기반 선택 전략을 활용해 이전 평가 결과를 사전 지식으로 삼아 후보 프롬프트의 선택 과정을 안내하는 통합 프레임워크인 다중모달 프롬프트 최적화기(MPO)를 제안한다. 이미지, 영상, 심지어 분자까지 텍스트를 초월한 다양한 모달리티에 걸쳐 실시한 광범위한 실험을 통해 MPO가 최첨단 텍스트 중심 최적화 방법들을 능가함을 입증하였으며, MLLM의 잠재력을 실현하기 위한 핵심 단계로 다중모달 프롬프트 최적화의 중요성을 확립하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
다중모달 프롬프트 최적화: 왜 다중 모달을 활용하지 않을까? MLLMs를 위해 | 연구 논문 | HyperAI초신경