2달 전

홀루시네이션을 활용한 프롬프트 의존성 감소를 위한 세그멘테이션 기법

Hu, Jian ; Lin, Jiayi ; Yan, Junchi ; Gong, Shaogang
홀루시네이션을 활용한 프롬프트 의존성 감소를 위한 세그멘테이션 기법
초록

프롬프트 가능한 세그멘테이션은 일반적으로 각 원하는 객체의 세그멘테이션을 안내하기 위해 인스턴스별 수동 프롬프트가 필요합니다. 이러한 요구를 최소화하기 위해, 단일 작업-일반적 프롬프트를 사용하여 동일한 작업 내에서 다양한 객체의 이미지를 세그멘테이션하는 작업-일반적 프롬프트 가능한 세그멘테이션이 도입되었습니다. 현재 방법론들은 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 활용하여 작업-일반적 프롬프트로부터 상세한 인스턴스별 프롬프트를 추론해내어 세그멘테이션 정확도를 향상시키고 있습니다. 이 세그멘테이션의 효과는 이러한 유도된 프롬프트의 정밀도에 크게 의존하지만, MLLMs는 종종 추론 과정에서 환각(hallucinations)을 겪어 잘못된 프롬프팅을 초래합니다. 기존 방법론들이 모델 개선을 위해 환각을 제거하는 데 집중하고 있는 반면, 우리는 MLLM 환각이 개별 이미지 이상의 사전 학습된 대규모 지식을 나타내므로 올바르게 활용할 경우 가치있는 맥락 정보를 제공할 수 있다고 주장합니다. 본 논문에서는 환각을 활용하여 이미지에서 작업 관련 정보를 채굴하고 생성된 프롬프트의 정확성을 검증하여 정밀도를 향상시키는 방법을 제안합니다.특히, 프롬프트 생성기와 마스크 생성기를 포함한 반복적인 프롬프트-마스크 사이클 생성 프레임워크(Prompt-Mask Cycle generation framework, ProMaC)를 소개합니다. 프롬프트 생성기는 멀티 스케일 체인 오브 씽크(chains of thought) 프롬프팅 방식을 사용하여 초기에는 테스트 이미지에 대한 확장된 맥락 지식 추출을 위한 환각 탐색에 중점을 두며, 이후 이러한 환각들을 줄여서 정확한 인스턴스별 프롬프트를 형성합니다. 이렇게 형성된 프롬프트들은 마스크 의미 일치(mask semantic alignment)를 통해 마스크 생성기에 일관된 작업 의미론에 부합하는 마스크 생성을 지시합니다. 생성된 마스크들은 반복적으로 프롬프트 생성기를 유도하여 작업 관련 이미지 영역에 더 집중하도록 하며, 비관련적인 환각들을 줄이는 역할을 합니다. 이로써 더욱 우수한 프롬프트와 마스크가 공동으로 만들어집니다.5개 벤치마크에서 수행된 실험들은 ProMaC의 효과성을 입증하였습니다. 코드는 https://lwpyh.github.io/ProMaC/ 에서 제공됩니다.

홀루시네이션을 활용한 프롬프트 의존성 감소를 위한 세그멘테이션 기법 | 최신 연구 논문 | HyperAI초신경