Command Palette

Search for a command to run...

7일 전

MMaDA-Parallel: 사고 인식 편집 및 생성을 위한 다중모달 대규모 확산 언어 모델

MMaDA-Parallel: 사고 인식 편집 및 생성을 위한 다중모달 대규모 확산 언어 모델

초록

사고 인식형 생성은 복잡한 작업에서 성능을 향상시키는 것을 목표로 하지만, 기존의 순차적이고 자동 회귀적 접근 방식은 오류 전파로 인해 오히려 성능이 저하되는 심각한 결함 모드를 보이고 있음을 확인하였다. 이 문제를 체계적으로 분석하기 위해, 텍스트 및 이미지 출력 모달리티를 모두 평가할 수 있도록 설계된 새로운 벤치마크인 ParaBench를 제안한다. ParaBench를 활용한 분석 결과, 성능 저하 현상은 생성된 추론과 최종 이미지 간의 정렬도(alignments)가 낮을수록 강하게 상관됨을 밝혀냈다. 이를 해결하기 위해, 전 denoising 경로 전체에 걸쳐 텍스트와 이미지 간에 지속적이고 양방향의 상호작용을 가능하게 하는 병렬 다중모달 확산 프레임워크인 MMaDA-Parallel을 제안한다. MMaDA-Parallel는 지도 학습을 통한 미세조정(fine-tuning)을 거친 후, 경로 전반에 걸쳐 의미적 보상(sematic rewards)을 적용하여 다중모달 일관성을 강제하는 새로운 전략인 병렬 강화학습(Parallel Reinforcement Learning, ParaRL)을 통해 추가 최적화된다. 실험을 통해 제안 모델이 다중모달 정렬도와 의미 일관성 측면에서 상당한 향상을 달성함을 입증하였으며, 최신 기술인 Bagel 모델 대비 ParaBench에서 출력 정렬도(Output Alignment) 측면에서 6.9% 향상시키는 성과를 거두었다. 이는 사고 인식형 이미지 생성을 위한 더 견고한 패러다임을 확립하는 데 기여한다. 본 연구의 코드는 https://github.com/tyfeld/MMaDA-Parallel 에 공개되어 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
MMaDA-Parallel: 사고 인식 편집 및 생성을 위한 다중모달 대규모 확산 언어 모델 | 연구 논문 | HyperAI초신경