Command Palette
Search for a command to run...

초록
텍스트-이미지 모델은 초기에는 단순한 창작 도구에 그쳤으나, 이제는 업계 수준의 시스템으로 급속도로 발전하여 이미지 품질과 사실성 면에서 전례 없는 수준에 도달했다. 그러나 대부분의 모델은 짧은 프롬프트를 세부적인 이미지로 매핑하도록 훈련되어, 텍스트 입력의 부족함과 시각적 출력의 풍부함 사이에 괴리가 발생한다. 이 불일치는 모델이 누락된 정보를 임의로 채우는 경향을 보이기 때문에 제어 가능성을 저하시키며, 평균 사용자 선호도에 편향되며 전문가용 사용에 있어 정밀도를 제한한다. 본 연구는 이 한계를 극복하기 위해, 긴 구조화된 캡션(설명문)을 기반으로 훈련된 최초의 오픈소스 텍스트-이미지 모델을 제안한다. 각 훈련 샘플은 동일한 세부 속성 세트로 주석이 달려 있어, 표현력의 범위를 극대화하고 시각적 요소들을 분리 제어할 수 있도록 설계되었다. 긴 캡션을 효율적으로 처리하기 위해, 토큰 길이를 늘리지 않으면서도 가벼운 대규모 언어 모델(Lightweight LLM)의 중간 토큰을 통합하는 DimFusion 기법을 제안한다. 또한, Text-as-a-Bottleneck Reconstruction (TaBR) 평가 프로토콜을 도입한다. 이는 실제 이미지를 캡션 생성 루프를 통해 얼마나 잘 재구성하는지 평가함으로써, 기존 평가 방법이 실패하는 매우 긴 캡션에 대해서도 제어 가능성과 표현력을 직접 측정할 수 있도록 한다. 마지막으로, 대규모 모델 FIBO를 훈련함으로써 오픈소스 모델 중에서 최고 수준의 프롬프트 일치도를 달성함을 입증한다. 모델 가중치는 https://huggingface.co/briaai/FIBO 에서 공개적으로 제공된다.