16일 전

ControlCap: 조절 가능한 영역 수준의 캡션 생성

Yuzhong Zhao, Yue Liu, Zonghao Guo, Weijia Wu, Chen Gong, Fang Wan, Qixiang Ye
ControlCap: 조절 가능한 영역 수준의 캡션 생성
초록

지역 수준의 캡션 생성은 사전 훈련된 다중 모달 모델이 가장 흔한 캡션을 예측하려는 경향이 있어 드물게 나타나는 캡션을 놓치는 캡션 퇴화 문제에 직면해 있다. 본 연구에서는 캡션 퇴화 문제를 해결하기 위해 제어 단어(controls words)를 다중 모달 모델에 도입하는 제어 가능한 지역 수준 캡션 생성(ControlCap) 방법을 제안한다. 구체적으로, ControlCap은 캡션 공간을 여러 하위 공간으로 분할하기 위해 구분 모듈(discriminative module)을 활용하여 제어 단어를 생성한다. 이로 인해 다중 모달 모델은 제어 단어를 포함하는 몇몇 하위 공간 내에서 캡션을 생성하도록 제약되며, 이는 드물게 등장하는 캡션을 더 잘 포착할 기회를 높여 캡션 퇴화 문제를 완화한다. 또한 인간이나 전문 모델이 상호작용식으로 제어 단어를 제공할 수 있어, 훈련 시 사용된 캡션 공간을 초월한 캡션 생성이 가능해지며, 모델의 일반화 능력이 향상된다. Visual Genome 및 RefCOCOg 데이터셋에서 실시한 광범위한 실험 결과, ControlCap은 각각 CIDEr 점수를 21.6, 2.2 증가시켜 기존 최고 성능 모델들을 크게 앞지르는 성능을 보였다. 코드는 https://github.com/callsys/ControlCap에서 공개되어 있다.

ControlCap: 조절 가능한 영역 수준의 캡션 생성 | 최신 연구 논문 | HyperAI초신경