13일 전

에너지 기반 학습을 통한 장면 그래프 생성

Mohammed Suhail, Abhay Mittal, Behjat Siddiquie, Chris Broaddus, Jayan Eledath, Gerard Medioni, Leonid Sigal
에너지 기반 학습을 통한 장면 그래프 생성
초록

기존의 장면 그래프 생성 방법들은 객체와 관계를 독립적인 실체로 간주하는 교차 엔트로피 손실을 사용하여 훈련된다. 그러나 이러한 설정은 출력 공간 내의 구조를 무시하는 것으로, 본질적으로 구조화된 예측 문제에 부적합하다. 본 연구에서는 장면 그래프 생성을 위한 새로운 에너지 기반 학습 프레임워크를 제안한다. 제안된 공식화는 출력 공간 내 장면 그래프의 구조를 효율적으로 통합할 수 있게 한다. 이 학습 프레임워크에 추가된 제약 조건은 유도 편향(inductive bias) 역할을 하며, 적은 수의 레이블로부터 모델이 효율적으로 학습할 수 있도록 한다. 제안된 에너지 기반 프레임워크를 활용해 기존의 최신 기술 수준 모델들을 훈련한 결과, Visual Genome 및 GQA 벤치마크 데이터셋에서 각각 최대 21%, 27%의 성능 향상을 달성하였다. 또한, 데이터가 부족한 제로-샷 및 희소 샷(zero- and few-shot) 설정에서 뛰어난 성능을 보여줌으로써, 제안된 프레임워크의 학습 효율성을 입증하였다.