SCP: 공중 영상 행동 인식을 위한 소프트 조건부 프롬프트 학습

우리는 항공 영상에서의 행동 인식을 위한 프롬프트 학습의 장점을 극대화하는 새로운 학습 접근법인 '소프트 조건부 프롬프트 학습(Soft Conditional Prompt Learning, SCP)'을 제안한다. 본 연구에서는 항공/로봇 시각 인식 환경에서 입력 영상에 포함된 행동과 관련된 설명이나 지시사항에 모델이 집중할 수 있도록 돕는 방식으로, 각 에이전트의 행동을 예측하도록 설계하였다. 제안된 방법은 학습 가능한 프롬프트, 보조 시각 정보, 대규모 비전 모델 등을 포함하는 다양한 형태의 프롬프트를 지원하여 인식 성능을 향상시킬 수 있다. 특히, 다양한 영상 입력에 따라 프롬프트 전문가( prompt experts) 풀에서 동적으로 프롬프트를 생성하도록 학습하는 소프트 조건부 프롬프트 기법을 도입하였다. 제안된 SCP는 작업 목표와 동일한 목적을 공유함으로써, 모델의 예측을 안내하는 프롬프트를 최적화할 뿐만 아니라, 입력에 불변적인(프롬프트 전문가 풀) 및 입력에 특정적인(데이터 의존적) 프롬프트 지식을 명시적으로 학습할 수 있다. 실제 실험에서는 단일 에이전트 및 다중 에이전트 행동이 포함된 항공 영상 데이터셋(Okutama, NECDrone)에서 정확도가 3.17~10.2% 향상됨을 관찰하였다. 또한, 지상 카메라 영상 데이터셋(SSV2)에서도 제안한 방법의 효과성과 일반화 능력을 검증하여 1.0~3.6%의 정확도 향상을 달성하였다. 마지막으로, 본 방법을 ROS2 환경에 통합하여 실시간 시스템 적용 가능성도 확인하였다.