2달 전

주목은 우리가 필요로 하는 전부다: 제1인칭 활동 인식을 위한 객체 중심 주목의 확립

Sudhakaran, Swathikiran ; Lanz, Oswald
주목은 우리가 필요로 하는 전부다: 제1인칭 활동 인식을 위한 객체 중심 주목의 확립
초록

본 논문에서는 제1인칭 활동 인식을 위한 엔드투엔드 학습 가능한 딥 뉴럴 네트워크 모델을 제안합니다. 우리의 모델은 제1인칭 활동이 비디오 내의 객체와 그 위치에 의해 높게 특징화된다는 관찰에 기반하여 구축되었습니다. 이를 바탕으로, 우리가 고려하는 활동과 관련된 객체가 포함된 영역에 주목할 수 있는 공간적 주의 메커니즘을 개발하였습니다. 우리는 일반적인 이미지 인식을 위해事前训练过的 CNN에서 클래스별 활성화를 사용하여 각 프레임에 대해 매우 전문화된 주의 맵을 학습하고, 이를 컨볼루션 LSTM을 통해 비디오의 시공간 인코딩에 활용합니다. 우리의 모델은 원시 비디오 수준의 활동 클래스 라벨을 사용하여 약한 감독 환경에서 학습됩니다.그럼에도 불구하고, 표준 제1인칭 활동 벤치마크에서 우리의 모델은 훈련 시 수작업 분할 및 객체 위치 강한 감독을 활용하는 현재 가장 우수한 방법보다 최대 +6% 포인트의 인식 정확도를 초월합니다. 우리는 네트워크가 생성한 주의 맵을 시각적으로 분석함으로써, 네트워크가 비디오 프레임 내에 존재하는 관련 객체들을 성공적으로 식별한다는 것을 확인하였으며, 이는 강력한 인식 성능을 설명할 수 있습니다. 또한, 설계 선택사항에 대한 광범위한 점진적 삭제 분석(아블레이션 분석)도 논의합니다.注:在翻译中,“事前训练”(pre-trained)一词被误译为中文,正确的韩文翻译应为“사전 학습”. 以下是修正后的版本:본 논문에서는 제1인칭 활동 인식을 위한 엔드투엔드 학습 가능한 딥 뉴럴 네트워크 모델을 제안합니다. 우리의 모델은 제1인칭 활동이 비디오 내의 객체와 그 위치에 의해 높게 특징화된다는 관찰에 기반하여 구축되었습니다. 이를 바탕으로, 우리가 고려하는 활동과 관련된 객체가 포함된 영역에 주목할 수 있는 공간적 주의 메커니즘을 개발하였습니다. 우리는 일반적인 이미지 인식을 위해 사전 학습된 CNN에서 클래스별 활성화를 사용하여 각 프레임에 대해 매우 전문화된 주의 맵을 학습하고, 이를 컨볼루션 LSTM을 통해 비디오의 시공간 인코딩에 활용합니다. 우리의 모델은 원시 비디오 수준의 활동 클래스 라벨을 사용하여 약한 감독 환경에서 학습됩니다.그럼에도 불구하고, 표준 제1인칭 활동 벤치마크에서 우리의 모델은 훈련 시 수작업 분할 및 객체 위치 강한 감독을 활용하는 현재 가장 우수한 방법보다 최대 +6% 포인트의 인식 정확도를 초월합니다. 우리는 네트워크가 생성한 주의 맵을 시각적으로 분석함으로써, 네트워크가 비디오 프레임 내에 존재하는 관련 객체들을 성공적으로 식별한다는 것을 확인하였으며, 이는 강력한 인식 성능을 설명할 수 있습니다. 또한, 설계 선택사항에 대한 광범위한 아블레이션 분석도 논의합니다.

주목은 우리가 필요로 하는 전부다: 제1인칭 활동 인식을 위한 객체 중심 주목의 확립 | 최신 연구 논문 | HyperAI초신경