AM Flow: 행동 인식에서 시간 처리를 위한 어댑터

딥러닝 모델, 특히 \textit{이미지} 모델은 최근 일반화 능력과 강건성을 크게 향상시켰습니다. 본 연구에서는 이러한 발전을 \textit{비디오} 분류 영역에 활용하기 위해 제안합니다. 비디오 기초 모델은 방대한 사전 학습과 긴 학습 시간이 요구되는 문제를 가지고 있습니다. 이러한 제약을 완화하기 위해, 우리는 이미지 모델에서 \textit{주목도 맵(Attention Map, AM)} 플로우를 사용하는 방법을 제안합니다. 이 방법은 각 입력 비디오 프레임에서 움직임과 관련된 픽셀을 식별하는 데 사용됩니다. 이와 관련하여, 카메라 움직임에 따라 AM 플로우를 계산하는 두 가지 방법을 제안합니다. AM 플로우는 공간적 처리와 시간적 처리를 분리하면서, 통합된 시공간 처리(비디오 모델에서那样)보다 개선된 결과를 제공합니다. 파라미터 효율적인 전이 학습의 인기 있는 기술 중 하나인 어댑터(Adapter)는 사전 학습된 이미지 모델에 AM 플로우를 통합하는 데 도움을 주며, 전체 미세 조정(full-finetuning)의 필요성을 줄여줍니다. 우리는 어댑터에 시간적 처리 유닛(temporal processing unit)을 통합하여 "\textit{시간적 처리 어댑터(temporal processing adapter)}"로 확장하였습니다. 본 연구는 더 빠른 수렴을 달성하여, 학습에 필요한 에폭(epoch) 수를 줄였습니다. 또한, 인기 있는 행동 인식 데이터셋에서 최신 성능(state-of-the-art) 결과를 얻을 수 있도록 이미지 모델에 능력을 부여하였습니다. 이는 학습 시간을 단축하고 사전 학습 과정을 간소화합니다. 우리는 Kinetics-400, Something-Something v2, 그리고 Toyota Smarthome 데이터셋에서 실험 결과를 제시하며, 최신 성능이나 유사한 성능을 보여주고 있습니다.注:在翻译过程中,为了确保句子结构更加符合韩语习惯,对部分句子进行了微调。例如,“as in video models”被翻译为“(비디오 모델에서那样)”以保持上下文连贯,但建议将其改为“(비디오 모델과 같이)”以更符合韩语表达习惯。修正后的版本如下:딥러닝 모델, 특히 \textit{이미지} 모델은 최근 일반화 능력과 강건성을 크게 향상시켰습니다. 본 연구에서는 이러한 발전을 \textit{비디오} 분류 영역에 활용하기 위해 제안합니다. 비디오 기초 모델은 방대한 사전 학습과 긴 학습 시간이 요구되는 문제를 가지고 있습니다. 이러한 제약을 완화하기 위해, 우리는 이미지 모델에서 \textit{주목도 맵(Attention Map, AM)} 플로우를 사용하는 방법을 제안합니다. 이 방법은 각 입력 비디오 프레임에서 움직임과 관련된 픽셀을 식별하는 데 사용됩니다. 이와 관련하여, 카메라 움직임에 따라 AM 플로우를 계산하는 두 가지 방법을 제안합니다. AM 플로우는 공간적 처리와 시간적 처리를 분리하면서, 통합된 시공간 처리(비디오 모델과 같이)보다 개선된 결과를 제공합니다. 파라미터 효율적인 전이 학습의 인기 있는 기술 중 하나인 어댑터(Adapter)는 사전 학습된 이미지 모델에 AM 플로우를 통합하는 데 도움을 주며, 전체 미세 조정(full-finetuning)의 필요성을 줄여줍니다. 우리는 어댑터에 시간적 처리 유닛(temporal processing unit)을 통합하여 "\textit{시간적 처리 어댑터(temporal processing adapter)}"으로 확장하였습니다. 본 연구는 더 빠른 수렴을 달성하여, 학습에 필요한 에폭(epoch) 수를 줄였습니다. 또한, 인기 있는 행동 인식 데이터셋에서 최신 성능(state-of-the-art) 결과를 얻도록 이미지 모델에 능력을 부여하였습니다. 이는 학습 시간을 단축하고 사전 학습 과정을 간소화합니다. 우리는 Kinetics-400, Something-Something v2 및 Toyota Smarthome 데이터셋에서 실험 결과를 제시하며, 최신 성능이나 유사한 성능을 보여주고 있습니다.希望这个版本能更好地满足您的要求。