
초록
본 보고서는 CVPR 2019에서 제출한 ActivityNet 챌린지에 대한 내용을 설명합니다. 우리는 3차원 합성곱 신경망(CNN) 기반의 프론트엔드와 시간적 합성곱 및 LSTM 분류기의 앙상블을 사용하여 화면에 보이는 사람이 말하고 있는지 여부를 예측합니다. 우리의 결과는 AVA-ActiveSpeaker 데이터셋에서 베이스라인보다 크게 개선된 것을 보여줍니다.
본 보고서는 CVPR 2019에서 제출한 ActivityNet 챌린지에 대한 내용을 설명합니다. 우리는 3차원 합성곱 신경망(CNN) 기반의 프론트엔드와 시간적 합성곱 및 LSTM 분류기의 앙상블을 사용하여 화면에 보이는 사람이 말하고 있는지 여부를 예측합니다. 우리의 결과는 AVA-ActiveSpeaker 데이터셋에서 베이스라인보다 크게 개선된 것을 보여줍니다.