Command Palette

Search for a command to run...

한 달 전

그림 그리는 것보다 생각하는 것이 더 어렵다: 텍스트-이미지 모델은 무대를 준비할 수는 있지만, 연출은 할 수 없는가?

Ouxiang Li Yuan Wang Xinting Hu Huijuan Huang et al

그림 그리는 것보다 생각하는 것이 더 어렵다: 텍스트-이미지 모델은 무대를 준비할 수는 있지만, 연출은 할 수 없는가?

초록

텍스트-이미지(T2I) 생성은 텍스트 프롬프트로부터 이미지를 합성하는 것을 목표로 하며, 이 프롬프트는 무엇을 표시해야 하는지를 명시할 뿐만 아니라 무엇을 추론할 수 있는지를 암시함으로써 구성(composition)과 추론(reasoning)이라는 두 가지 핵심 능력과 대응한다. 그러나 T2I 모델이 구성 이상의 추론 능력을 갖추는 등 새로운 발전이 나타나면서, 기존의 평가 벤치마크는 이러한 능력들 사이 및 내부에서 종합적인 평가를 제공하는 데 명백한 한계를 드러내고 있다. 한편 이러한 발전은 모델이 더 복잡한 프롬프트를 처리할 수 있도록 가능하게 하지만, 현재의 벤치마크는 여전히 낮은 장면 밀도와 단순한 일대일 추론에 국한되어 있다. 이러한 한계를 해결하기 위해 우리는 T2I 모델의 구성 능력과 추론 능력을 모두 평가할 수 있는 종합적이고 복잡한 벤치마크인 T2I-CoReBench를 제안한다. 평가의 종합성을 보장하기 위해, 구성 능력은 장면 그래프의 요소(개체, 속성, 관계)를 중심으로 구성하고, 추론 능력은 추론 철학적 틀(연역적, 귀납적, 추론적)을 기반으로 하여 총 12차원의 평가 분류 체계를 설정하였다. 복잡성을 높이기 위해 현실 세계의 본질적 복잡성을 반영하여, 각 프롬프트를 구성 측면에서는 높은 구성 밀도를, 추론 측면에서는 다단계 추론을 포함하도록 구성하였다. 또한 각 프롬프트에 대해 개별적인 예/아니요 질문을 명시한 체크리스트를 병행하여, 각 의도된 요소를 독립적으로 평가할 수 있도록 하여 세밀하고 신뢰할 수 있는 평가를 가능하게 하였다. 통계적으로 본 벤치마크는 1,080개의 도전적인 프롬프트와 약 13,500개의 체크리스트 질문을 포함하고 있다. 현재 27개의 T2I 모델에 대한 실험 결과, 복잡하고 밀도가 높은 장면에서의 구성 능력이 여전히 제한적임을 확인하였으며, 추론 능력은 더욱 뒤처져 있는 핵심적 한계로 나타났다. 모든 모델이 프롬프트에서 암시된 요소를 추론하는 데 어려움을 겪고 있음을 확인할 수 있었다. 본 연구 프로젝트 페이지: this https URL.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
그림 그리는 것보다 생각하는 것이 더 어렵다: 텍스트-이미지 모델은 무대를 준비할 수는 있지만, 연출은 할 수 없는가? | 연구 논문 | HyperAI초신경