한 달 전

보편적 표현: 얼굴, 텍스트, 플랑크톤, 고양이 품종 간의 결여된 연결고리

Hakan Bilen; Andrea Vedaldi
보편적 표현: 얼굴, 텍스트, 플랑크톤, 고양이 품종 간의 결여된 연결고리
초록

대용량 라벨링된 데이터셋과 고용량 모델의 등장으로 인해 기계 시각 시스템의 성능이 급속히 향상되고 있습니다. 그러나 이 기술은 여전히 주요 제한 사항을 가지고 있으며, 이는 다양한 시각 문제들이 여전히 개별적으로 학습하거나 대상 데이터에微调过的不同模型来解决的事实开始的。与人类视觉系统形成鲜明对比的是,人类视觉系统在个体早期生活中学习到一种通用的视觉表示。这种表示对于极其多样的视觉问题都能很好地工作,几乎不需要任何改变,并且具有解决这些问题时需要很少训练数据的主要优势。本论文探讨了神经网络是否可以作为通用表示来工作,通过研究它们在处理大量组合视觉问题(“规模”)方面的容量来进行。我们通过展示单一神经网络可以同时学习多个非常不同的视觉领域(从素描到浮游生物和MNIST数字),并且其表现与多个专门化的网络一样好或更好,从而进行了这一研究。然而,我们也展示了这需要仔细对网络中的信息进行归一化处理,即使用特定领域的缩放因子或更普遍地使用实例归一化层。修正后的韩文翻译:대용량 라벨링된 데이터셋과 고용량 모델의 등장으로 인해 기계 시각 시스템의 성능이 급속히 향상되고 있습니다. 그러나 이 기술은 여전히 주요 제한 사항을 가지고 있으며, 이는 다양한 시각 문제들이 여전히 개별적으로 학습하거나 대상 데이터에 미세 조정(fine-tuning)된 다른 모델로 해결되는 사실에서 시작됩니다. 인간의 시각 체계와는 달리, 인간의 시각 체계는 개인의 초기 생애에서 보편적인 시각 표현을 배웁니다. 이 표현은 거의 변경 없이 매우 다양한 시각 문제를 잘 해결하며, 특히 각 문제를 해결하기 위해 필요한 훈련 데이터가 적다는 점이 큰 장점입니다.본 논문에서는 신경망이 보편적 표현으로 작동할 수 있는지 연구합니다. 이를 위해 신경망이 다수의 복합적인 시각 문제("규모")를 처리하는 능력과 관련하여 그 용량을 조사합니다. 우리는 단일 신경망이 여러 가지 매우 다른 시각 영역(스케치부터 플랑크톤과 MNIST 숫자까지)을 동시에 학습할 수 있음을 보여주며, 이러한 성능은 여러 전문화된 네트워크와 동등하거나 더 우수함을 입증하였습니다. 그러나 또한 이러한 과정이 신경망 내부 정보를 정밀하게 정규화(normalize)해야 함을 보여주었습니다. 즉, 특정 영역에 따른 스케일링 요인(domain-specific scaling factors)을 사용하거나, 더 일반적으로 인스턴스 정규화 레이어(instance normalization layer)를 사용해야 합니다.

보편적 표현: 얼굴, 텍스트, 플랑크톤, 고양이 품종 간의 결여된 연결고리 | 최신 연구 논문 | HyperAI초신경