HyperAIHyperAI

Command Palette

Search for a command to run...

텍스트-시각 생성에서 추론 시스템 확장에 대한 프롬프트 설계 재고

Subin Kim Sangwoo Mo Mamshad Nayeem Rizve Yiran Xu Difan Liu Jinwoo Shin Tobias Hinz

초록

사용자 의도와 생성된 시각 콘텐츠 간의 정밀한 일치를 달성하는 것은 텍스트-시각 생성 분야에서 여전히 핵심적인 과제로 남아 있으며, 단일 시도로는 종종 원하는 출력을 얻기 어렵다. 이를 해결하기 위해 기존의 접근 방식은 주로 시각 생성 과정을 확장하는 방식(예: 샘플링 단계 또는 시드 수 증가)을 활용하지만, 이는 곧 품질의 포화 상태에 이를 수 있다. 이러한 제한은 생성을 안내하는 데 핵심적인 역할을 하는 프롬프트를 고정된 상태로 유지하기 때문에 발생한다. 이를 해결하기 위해 우리는 추론 시점에서의 확장에 적합한 프롬프트 재설계 프레임워크인 PRIS(PROMPT REDESIGN FOR INFERENCE-TIME SCALING)를 제안한다. PRIS의 핵심 아이디어는 확장된 시각 생성 결과를 검토하고, 여러 생성물 간에 반복되는 실패 패턴을 식별한 후, 이를 바탕으로 프롬프트를 재설계한 뒤 수정된 프롬프트를 사용해 다시 시각 콘텐츠를 생성하는 것이다. 프롬프트 재설계를 위한 정밀한 피드백을 제공하기 위해, 우리는 새로운 검증기인 '요소 수준의 사실적 보정(Element-level Factual Correction)'을 도입한다. 이 검증기는 프롬프트의 속성과 생성된 시각 콘텐츠 간의 일치를 세부적인 수준에서 평가함으로써, 전반적인 측정 방식보다 더 정확하고 해석 가능한 평가를 가능하게 한다. 텍스트-이미지 및 텍스트-비디오 벤치마크에서 실시한 광범위한 실험을 통해 본 연구의 효과성이 입증되었으며, VBench 2.0에서 15%의 성능 향상을 달성하였다. 이러한 결과는 추론 시점에서 프롬프트와 시각 콘텐츠를 함께 확장하는 것이 스케일링 법칙을 최대한 활용하는 핵심임을 시사한다. 시각화 자료는 다음 웹사이트에서 확인할 수 있다: https://subin-kim-cv.github.io/PRIS.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
텍스트-시각 생성에서 추론 시스템 확장에 대한 프롬프트 설계 재고 | 문서 | HyperAI초신경