2달 전

시각적 관계 검출에 대한 내부 및 외부 언어 지식 증류

Ruichi Yu; Ang Li; Vlad I. Morariu; Larry S. Davis
시각적 관계 검출에 대한 내부 및 외부 언어 지식 증류
초록

시각적 관계를 이해하는 것은 주어, 목적어, 그리고 이들을 연결하는 서술어를 식별하는 것을 포함합니다. 우리는 주어와 목적어에 조건부로 서술어를 예측하기 위해 서술어와 (주어, 목적어) 쌍 사이의 강한 상관관계(의미론적 및 공간적으로)를 활용합니다. 세 개의 실체를 공동으로 모델링하면 그들의 관계를 더 정확히 반영하지만, 시각적 관계의 의미론적 공간이 매우 크고 훈련 데이터가 제한적이기 때문에 학습이 복잡해집니다. 특히, 적은 사례가 있는 장미 꼬리(Long-tail) 관계에 대해서는 더욱 그렇습니다. 이를 극복하기 위해 우리는 언어 통계학의 지식을 사용하여 시각 모델 학습을 규제합니다. 우리는 내부 지식(훈련 주석에서 추출)과 외부 지식(예: 위키백과와 같은 공개 텍스트에서 추출)을 통해 (주어, 목적어) 쌍이 주어졌을 때 서술어의 조건부 확률 분포를 계산하여 언어 지식을 획득합니다. 그런 다음, 이 지식을 깊은 모델에 전달하여 더 나은 일반화를 달성합니다. 우리의 실험 결과는 Visual Relationship Detection(VRD) 및 Visual Genome 데이터셋에서 이 언어 지식 전달 방법으로 인해 우리의 모델이 현존하는 최고 수준의 방법들보다 크게 우수함을 보여줍니다. 특히, 미처 보지 못한 관계를 예측할 때 이러한 차이는 두드러지며(VRD 제로샷 테스트 세트에서 재현율이 8.45%에서 19.17%로 향상됨).

시각적 관계 검출에 대한 내부 및 외부 언어 지식 증류 | 최신 연구 논문 | HyperAI초신경