일상생활에서의 상호작용 활동의 소수 샘플 분류 (InteractADL)

일상생활 활동(ADLs)을 이해하는 것은 보조 로봇, 스마트 홈, 그리고 의료 등 다양한 응용 분야에서 중요한 단계입니다. 그러나 지금까지 복잡한 ADLs, 특히 가정 환경에서 여러 사람 간의 상호작용을 포함하는 ADLs에 초점을 맞춘 벤치마크와 방법론은 거의 없습니다. 본 논문에서는 인간(과 물체) 간의 상호작용을 포함하는 복잡한 ADLs를 이해하기 위한 새로운 데이터셋과 벤치마크인 InteractADL을 제안합니다. 또한, 가정 환경에서 발생하는 복잡한 ADLs는 다중 인원 상호작용의 희소성으로 인해 긴 꼬리 분포(long-tailed distribution)를 가지며, 의미적으로나 시각적으로 유사한 클래스들의 존재로 인해 세부적인 시각 인식 작업(fine-grained visual recognition tasks)을 제기합니다. 이러한 문제들을 해결하기 위해, 우리는 최적의 클래스 이름 벡터를 학습하여 더 큰 의미적 구분성을 제공하는 새로운 방법론인 '이름 조정(Name Tuning)'을 제안합니다. 우리는 이름 조정이 기존 프롬프트 조정 전략(prompt tuning strategies)과 결합되어 전체 입력 텍스트(프롬프트나 클래스 이름만 학습하는 것이 아니라)를 학습할 수 있음을 보여주며, InteractADL 및 다른 4개의 세부적인 시각 분류 벤치마크(fine-grained visual classification benchmarks)에서 소량 샘플 분류(few-shot classification) 성능 개선을 입증하였습니다. 투명성과 재현성을 위해, 우리의 코드는 https://github.com/zanedurante/vlm_benchmark 에 공개되었습니다.