2달 전
단기 객체 상호작용 예측을 위한 분리된 객체 검출 @ Ego4D 단기 객체 상호작용 예측 챌린지
Hyunjin Cho; Dong Un Kang; Se Young Chun

초록
단기 객체 상호작용 예측은 제1인칭 비디오 분석에서 중요한 작업으로, 미래의 상호작용과 그 시점을 정확히 예측하는 것뿐만 아니라 관련된 활성 객체의 범주와 위치도 예측해야 합니다. 이 작업의 복잡성을 완화하기 위해 제안한 방법인 SOIA-DOD는 이를 1) 활성 객체 검출과 2) 상호작용 분류 및 시점 예측으로 효과적으로 분해합니다. 본 방법은 먼저 사전 학습된 YOLOv9를 미세 조정하여 제1인칭 비디오의 마지막 프레임에서 모든 잠재적인 활성 객체를 검출합니다. 그런 다음, 이러한 잠재적인 활성 객체를 쿼리로 결합하여 트랜스포머 인코더와 함께 사용함으로써 가장 유망한 다음 활성 객체를 식별하고 그 미래의 상호작용과 접촉 시간을 예측합니다. 실험 결과, 본 방법이 도전 테스트 세트에서 최신 모델들을 능가하며, 다음 활성 객체와 그 상호작용을 예측하는 데 있어 최고 성능을 달성했습니다. 마지막으로, 접촉 시간 예측을 포함할 때 전체 top-5 mAP(평균 정밀도)에서 세 번째로 높은 순위를 기록했습니다. 소스 코드는 https://github.com/KeenyJin/SOIA-DOD에서 확인할 수 있습니다.