
엔티티가 물체와 상호작용할 수 있도록 하기 위해서는 특정 동작을 가능하게 하는 부분을 정확히 식별하는 것이 필수적이다. 약한 지도 학습 기반의 기능적 부분 식별(Weakly supervised affordance grounding, WSAG)은 제3자 시점의 예시를 통해 인간이 학습하는 방식을 모방하려는 접근으로, 픽셀 수준의 레이블 없이도 기능적 부분을 직관적으로 이해하는 능력을 반영한다. 이를 달성하기 위해 일반적으로 다양한 시점의 이미지에서 공유되는 분류기와 함께, 부분 탐지 과정을 포함하는 교사-학생(distillation) 전략을 사용하여 기능적 부분을 학습한다. 그러나 기능과 관련된 부분이 항상 명확하게 구분되지 않는 경우가 많아, 기존 모델은 주로 분류 기반 학습에 의존하게 되며, 이로 인해 기능과 무관한 일반적인 클래스 특성 패턴에 치우치는 경향이 있다. 이러한 한계를 극복하기 위해, 본 연구는 고립된 부분 수준의 학습을 넘어서, 가용 정보의 세부 정도에 따라 부분 수준과 물체 수준에서 기능적 관련 특징을 적응적으로 학습할 수 있도록 선택적 원형(prototypical) 및 픽셀 대비(contrastive) 목적 함수를 도입한다. 먼저, CLIP을 활용하여 자기 중심(물체 중심) 및 타인 중심(제3자 시점) 이미지에서 동작과 관련된 물체를 식별한다. 이후, 서로 보완적인 시점에서 탐지된 물체를 교차 비교함으로써 각 시점 내에서 정밀한 부분 수준의 기능적 단서를 추출한다. 이 과정에서 기능적 관련 영역과 무관한 배경 정보를 지속적으로 구분하는 학습을 통해, 모델은 무의미한 영역에서의 활성화를 의미 있는 기능적 단서로 효과적으로 이동시킨다. 실험 결과는 제안하는 방법의 효과성을 입증한다. 코드는 github.com/hynnsk/SelectiveCL 에서 공개되어 있다.