Command Palette

Search for a command to run...

21일 전

UniREditBench: 통합 추론 기반 이미지 편집 벤치마크

UniREditBench: 통합 추론 기반 이미지 편집 벤치마크

초록

최근 다중 모달 생성 모델의 발전은 이미지 편집 기술에 큰 진전을 이끌어냈다. 그러나 현재의 생성 모델은 암시적 추론이 필요한 다양한 복잡한 이미지 편집 작업을 처리하는 데 여전히 어려움을 겪고 있으며, 이는 다양한 추론 시나리오에서 모델 성능을 체계적으로 평가할 수 있는 포괄적인 벤치마크의 필요성을 부각시킨다. 기존 벤치마크는 주로 현실적인 환경에서 단일 객체의 속성 변환에 초점을 맞추고 있으나, 이러한 접근은 효과적인 면이 있음에도 불구하고 두 가지 핵심적 도전 과제를 안고 있다. 첫째, 실제 응용 사례에서 흔한 인간이 정의한 규칙을 포함한 다객체 상호작용 및 게임 세계 시나리오를 대부분 간과하고 있다. 둘째, 생성된 이미지를 평가할 때 텍스트 기반 참조만을 사용하기 때문에, 특히 복잡한 추론 시나리오에서는 체계적인 오류 판단이 발생할 가능성이 있다. 이러한 문제를 해결하기 위해 본 연구는 추론 기반 이미지 편집 평가를 위한 통합 벤치마크인 UniREditBench를 제안한다. 이 벤치마크는 8개의 주요 차원과 18개의 하위 차원을 포함하여 현실 세계 및 게임 세계 시나리오를 아우르는 총 2,700개의 정교하게 구성된 샘플로 구성되어 있다. 평가의 신뢰도를 높이기 위해, 각 샘플 평가에 대해 텍스트 기반 참조와 실제 이미지 기반 참조를 모두 제공하는 다중 모달 이중 참조 평가 방식을 도입하였다. 더불어, 자동화된 다시나리오 데이터 합성 파이프라인을 설계하여, 높은 품질의 사고의 흐름(Chain-of-Thought, CoT) 주석이 포함된 대규모 합성 데이터셋인 UniREdit-Data-100K를 구축하였다. 이 데이터셋을 기반으로 Bagel 모델을 미세 조정하여 UniREdit-Bagel을 개발하였으며, 이는 도메인 내 및 도메인 외 설정 모두에서 상당한 성능 향상을 보였다. 개방형 및 폐쇄형 이미지 편집 모델을 철저히 벤치마킹한 결과, 다양한 측면에서 각 모델의 강점과 약점을 밝혀냈다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
UniREditBench: 통합 추론 기반 이미지 편집 벤치마크 | 연구 논문 | HyperAI초신경