ObjectNet: 객체 인식 모델의 한계를 극복하기 위한 대규모 편향 통제 데이터셋

우리는 객체 인식을 위한 대규모 실세계 테스트 세트인 ObjectNet을 수집하였으며, 이 데이터셋은 객체의 배경, 회전 각도 및 촬영 시점이 무작위로 조절된 상태에서 구성되었다. 과학적 실험에서는 일반적으로 데이터에서 비현실적인 상관관계를 제거하기 위해 통제 조건(controls)과 오염 요인(confounds)을 제거하는 것이 일반적이다. 이를 통해 실험 대상이 데이터 내의 단순한 패턴에 의존하지 않고 진정한 인식 능력을 발휘할 수 있도록 보장한다. 그러나 전통적으로 대규모 기계학습 및 컴퓨터비전 데이터셋은 이러한 통제 조건이 부족하였다. 그 결과 모델들은 새로운 데이터셋에 맞게 미세 조정(fine-tuning)이 필요하며, 테스트 벤치마크에서는 뛰어난 성능을 보이지만 실제 환경에서는 성능이 크게 저하되는 문제가 발생하였다. ObjectNet에서의 실험 결과, 객체 탐지 모델은 기존 벤치마크 대비 40~45%의 성능 하락을 보였으며, 이는 편향에 대한 통제 조건이 효과적으로 작용했기 때문이다. 이러한 통제 조건 덕분에 ObjectNet은 미세 조정에 대해 강건하며, 성능 향상이 거의 관측되지 않았다. 우리는 커뮤니티 기반의 이미지 촬영 및 태그 작업을 통해 통제 조건을 갖춘 데이터셋을 자동화된 플랫폼을 통해 수집할 수 있는 도구를 개발하였다. ObjectNet은 ImageNet 테스트 세트와 동일한 규모(5만 장의 이미지)를 가지며, 일반화 능력을 유도하기 위해 의도적으로 학습 세트를 제공하지 않는다. 이 데이터셋은 ImageNet보다 더 쉽기도 하고(객체가 대부분 중심에 위치하고 부분적으로 가려지지 않음), 동시에 더 어렵기도 하다(통제 조건이 강화되어 있기 때문). 본 연구에서는 객체 인식에 초점을 맞추었지만, 자동화된 도구를 활용해 기계학습 전반에 걸쳐 통제 조건을 갖춘 데이터셋을 대규모로 수집할 수 있다. 이를 통해 기존과는 다른 방식으로 모델을 테스트하고 연구자들에게 유의미한 피드백을 제공할 수 있다. 본 연구는 일반화 가능하고 강건하며 인간과 유사한 컴퓨터비전 기술의 발전을 위한 새로운 연구 방향을 제시하며, 실제 환경에서의 성능을 예측할 수 있는 데이터셋 개발의 중요성을 강조한다.