HyperAI초신경

다중 이미지 향상을 위한 MIA-DPO 선호 정렬 방법

MIA-DPO(Multi-Image Augmented Direct Preference Optimization)는 대규모 시각 언어 모델(LVLM)에 대한 다중 이미지 증강을 위한 선호도 정렬 방법입니다. 이는 상하이 교통대학교, 상하이 인공지능연구소, 홍콩 중국대학교 및 기타 기관이 2024년에 공동으로 제안했습니다. 관련 논문 결과는 다음과 같습니다.MIA-DPO: 대규모 시각-언어 모델을 위한 다중 이미지 증강 직접 선호도 최적화". 이 방법의 핵심은 단일 이미지 데이터를 다중 이미지 데이터로 확장하고 시퀀스, 그리드 콜라주, 픽처 인 픽처의 세 가지 데이터 형식을 설계하는 것입니다. 이를 통해 데이터 수집 및 주석 처리 비용을 효과적으로 절감하는 동시에 확장성이 뛰어납니다.

MIA-DPO의 핵심은 주의 메커니즘을 활용하여 모델이 실수로 초점을 맞춘 거부된 응답을 식별하고 필터링하여 수동 주석이나 추가 데이터에 의존하지 않고 선택/거부 쌍을 구성하는 것입니다. 실험 결과에 따르면 MIA-DPO는 5개의 다중 이미지 벤치마크에서 좋은 성능을 보였으며, 단일 이미지 이해 능력에는 거의 영향을 미치지 않으면서 평균 성능 향상폭이 3.0%(LLaVA-v1.5에서) 및 4.3%(InternLM-XC2.5에서)였습니다.