Command Palette

Search for a command to run...

다중 이미지 향상을 위한 MIA-DPO 선호 정렬 방법

날짜

일 년 전

MIA-DPO(Multi-Image Augmented Direct Preference Optimization)는 대규모 시각 언어 모델(LVLM)에 대한 다중 이미지 증강을 위한 선호도 정렬 방법입니다. 이는 상하이 교통대학교, 상하이 인공지능연구소, 홍콩 중국대학교 및 기타 기관이 2024년에 공동으로 제안했습니다. 관련 논문 결과는 다음과 같습니다.MIA-DPO: 대규모 시각-언어 모델을 위한 다중 이미지 증강 직접 선호도 최적화". 이 방법의 핵심은 단일 이미지 데이터를 다중 이미지 데이터로 확장하고 시퀀스, 그리드 콜라주, 픽처 인 픽처의 세 가지 데이터 형식을 설계하는 것입니다. 이를 통해 데이터 수집 및 주석 처리 비용을 효과적으로 절감하는 동시에 확장성이 뛰어납니다.

MIA-DPO의 핵심은 주의 메커니즘을 활용하여 모델이 실수로 초점을 맞춘 거부된 응답을 식별하고 필터링하여 수동 주석이나 추가 데이터에 의존하지 않고 선택/거부 쌍을 구성하는 것입니다. 실험 결과에 따르면 MIA-DPO는 5개의 다중 이미지 벤치마크에서 좋은 성능을 보였으며, 단일 이미지 이해 능력에는 거의 영향을 미치지 않으면서 평균 성능 향상폭이 3.0%(LLaVA-v1.5에서) 및 4.3%(InternLM-XC2.5에서)였습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
다중 이미지 향상을 위한 MIA-DPO 선호 정렬 방법 | 백과사전 | HyperAI초신경