2달 전

VLPrompt: 시각-언어 프롬프팅을 이용한 팬오 若要保持与SCI/SSCI期刊风格的一致性,建议使用更正式和学术化的表达: VLPrompt: 팬오라믹 장면 그래프 생성을 위한 시각-언어 프롬프팅

Zijian Zhou; Miaojing Shi; Holger Caesar
VLPrompt: 시각-언어 프롬프팅을 이용한 팬오 若要保持与SCI/SSCI期刊风格的一致性,建议使用更正式和学术化的表达:
VLPrompt: 팬오라믹 장면 그래프 생성을 위한 시각-언어 프롬프팅
초록

Panoptic Scene Graph Generation (PSG, 팬옵틱 장면 그래프 생성)는 객체를 동시에 분할하고 객체 간의 관계를 예측하여 포괄적인 이미지 이해를 달성하는 것을 목표로 합니다. 그러나 관계들 사이에서 발생하는 장미 꼬리 문제(long-tail problem, 장미꼬리 문제)는 실제 응용 프로그램에서 만족스러운 결과를 얻기 어렵게 만듭니다. 이전 방법들은 주로 시각 정보에 의존하거나 객체나 관계 이름과 같은 제한된 언어 정보만을 활용하여, 언어 정보의 활용성을 간과하였습니다. 최근 대형 언어 모델(Large Language Models, LLMs; 대형언어모델)의 발전을 활용하여, 우리는 특히 희귀한 관계(rare relations, 희귀관계)에 대한 예측을 돕기 위해 언어 정보를 사용하는 방법을 제안합니다. 이를 위해 우리는 이미지에서 시각 정보와 LLMs에서 언어 정보를 획득하는 Vision-Language Prompting (VLPrompt, 시각-언어 프롬프팅) 모델을 제안합니다. 그런 다음 주의 메커니즘(attention mechanism, 주의메커니즘) 기반의 프롬프터 네트워크(prompter network, 프롬프터네트워크)를 통해 정확한 관계 예측을 실현합니다. 우리의 광범위한 실험 결과는 VLPrompt가 PSG 데이터셋에서 이전 최신 방법들보다 크게 우수함을 보여주며, 이는 언어 정보를 통합하는 것이 효과적임을 증명하며 관계들의 장미 꼬리 문제를 완화시킨다는 것을 확인시켜줍니다. 코드는 \url{https://github.com/franciszzj/TP-SIS}에서 제공됩니다.

VLPrompt: 시각-언어 프롬프팅을 이용한 팬오 若要保持与SCI/SSCI期刊风格的一致性,建议使用更正式和学术化的表达: VLPrompt: 팬오라믹 장면 그래프 생성을 위한 시각-언어 프롬프팅 | 최신 연구 논문 | HyperAI초신경