Command Palette
Search for a command to run...

초록
최근 이미지 편집 기술은 놀라운 발전을 이뤄냈다. 현대의 편집 모델은 이미 복잡한 지시를 따르며 원본 콘텐츠를 조작할 수 있다. 그러나 편집 지시를 완수하는 것 이상으로, 생성된 결과의 물리적 사실성(physical realism)이 핵심적인 요소가 된다. 예를 들어, 객체를 제거할 경우 그 객체가 생성한 그림자, 반사, 주변 객체와의 상호작용도 함께 제거되어야 한다.遗憾히도, 기존의 모델과 벤치마크는 주로 지시 완수에 초점을 맞추고 있으며, 이러한 물리적 효과는 간과해왔다. 그렇다면 지금 이 시점에서 우리는 물리적으로 사실적인 이미지 편집에서 얼마나 멀어져 있는가? 이를 밝히기 위해, 우리가 제안하는 PICABench는 일반적인 편집 작업(추가, 제거, 속성 변경 등)에 대해 광학, 기계, 상태 전이의 8개 하위 차원에 걸쳐 물리적 사실성을 체계적으로 평가한다. 또한, 개별 케이스와 영역 수준의 인간 레이블 및 질문을 활용한 VLM(다중 모달 언어 모델)를 심사자로 사용하는 신뢰성 있는 평가 프로토콜인 PICAEval을 제안한다. 벤치마크를 넘어서, 동영상을 통해 물리 법칙을 학습하는 효과적인 접근 방식을 탐색하고, PICA-100K라는 훈련 데이터셋을 구축하였다. 주요 모델들을 평가한 결과, 물리적 사실성은 여전히 도전 과제이며, 탐색할 여지가 매우 크다는 점을 확인할 수 있었다. 본 연구에서 제안하는 벤치마크와 해결 방안이, 단순한 콘텐츠 편집에서 물리적 일관성 있는 사실성으로 나아가는 향후 연구의 기반이 되길 기대한다.