2달 전

지상 상황 인식을 위한 두 단계 프레임워크 재검토

Wei, Meng ; Chen, Long ; Ji, Wei ; Yue, Xiaoyu ; Chua, Tat-Seng
지상 상황 인식을 위한 두 단계 프레임워크 재검토
초록

지상 상황 인식(Grounded Situation Recognition, GSR), 즉 이미지에서 주요 활동(또는 동사) 범주(예: 구매)를 인식하고 해당하는 모든 의미 역할(예: 행위자와 상품)을 감지하는 것은 "인간 같은" 이벤트 이해를 향한 필수적인 단계입니다. 각 동사는 특정 세트의 의미 역할과 연결되어 있으므로, 기존의 모든 GSR 방법은 두 단계 프레임워크를 사용합니다: 첫 번째 단계에서는 동사를 예측하고, 두 번째 단계에서는 의미 역할을 감지합니다. 그러나 이 두 단계 모두에 명백한 한계가 있습니다:1) 객체 인식에 널리 사용되는 교차 엔트로피(Cross-Entropy, XE) 손실은 일상 활동 간의 큰 클래스 내 변동성과 높은 클래스 간 유사성으로 인해 동사 분류에 충분하지 않습니다.2) 모든 의미 역할이 자기 회귀 방식으로 감지되는데, 이는 서로 다른 역할 간의 복잡한 의미 관계를 모델링하는 데 실패합니다.이러한 문제점을 해결하기 위해, 우리는 새로운 GSR 모델인 SituFormer를 제안합니다. SituFormer는 코스-투-파인(Coarse-to-Fine Verb Model, CFVM)과 트랜스포머 기반 명사 모델(Transformer-based Noun Model, TNM)로 구성됩니다. CFVM은 두 단계 동사 예측 모델입니다: 먼저 XE 손실로 학습된 코스-그레인드(Coarse-grained) 모델이 동사 후보 세트를 제안하고, 그 다음 트리플렛(Triplet) 손실로 학습된 파인-그레인드(Fine-grained) 모델이 강화된 동사 특성을 활용하여(분리 가능하면서도 차별화된 특성) 이러한 후보들을 재정렬합니다. TNM은 트랜스포머 기반의 의미 역할 감지 모델로, 모든 역할을 병렬적으로 감지합니다. 트랜스포머 디코더의 전역 관계 모델링 능력과 유연성 덕분에 TNM은 역할 간의 통계적 의존성을 완전히 탐색할 수 있습니다.SWiG 벤치마크에서 수행된 광범위한 검증 결과, SituFormer는 다양한 지표 하에서 새로운 최고 성능(SOTA)을 달성하며 크게 개선되었습니다. 코드는 https://github.com/kellyiss/SituFormer에서 확인 가능합니다.

지상 상황 인식을 위한 두 단계 프레임워크 재검토 | 최신 연구 논문 | HyperAI초신경