대규모 이미지 및 비디오를 위한 일반 객체 기반 모델

이 연구에서 우리는 이미지와 비디오에서 객체를 위치시키고 식별하는 객체 수준의 기초 모델인 GLEE를 소개합니다. 통합된 프레임워크를 통해 GLEE는 다양한 객체 인식 작업을 위한 개방형 시나리오에서 임의의 객체의 탐지, 분할, 추적, 지면화(grounding), 그리고 식별을 수행합니다. 일관된 학습 전략을 채택하여 GLEE는 다양한 감독 수준을 가진 여러 데이터 소스로부터 지식을 획득하여 일반적인 객체 표현을 형성하며, 새로운 데이터와 작업으로의 제로샷(zero-shot) 전송에서 뛰어난 성능을 보입니다.특히, 우리는 이미지 인코더, 텍스트 인코더, 그리고 시각 프롬프터를 사용하여 다중 모달 입력을 처리함으로써 다양한 객체 중심 하류 작업들을 동시에 해결하면서 최신 수준의 성능을 유지할 수 있습니다. 500만 개 이상의 다양한 벤치마크 이미지를 대상으로 한 광범위한 훈련을 통해 GLEE는 뛰어난 유연성과 개선된 일반화 성능을 보여주며, 작업 특异性 적응 없이도 효율적으로 하류 작업들을 처리할 수 있습니다. 대량의 자동으로 라벨링된 데이터를 통합함으로써 우리는 그 제로샷 일반화 능력을 더욱 강화하였습니다.또한, GLEE는 대형 언어 모델(Large Language Models)에 통합될 수 있으며, 이는 다중 모달 작업에 대한 보편적인 객체 수준 정보를 제공하는 기초 모델로서 역할합니다. 우리 방법의 유연성과 보편성이 효율적인 시각 기초 모델 개발에 있어 AGI(Artificial General Intelligence) 시스템에 중요한 진전이 될 것으로 기대됩니다. 모델과 코드는 https://glee-vision.github.io 에서 공개될 예정입니다.