YOLOv9: 프로그래머블 그래디언트 정보를 활용하여 원하는 것을 학습하기

오늘날의 딥러닝 기법은 모델의 예측 결과가 정답(ground truth)에 가장 가까워지도록 하기 위해 가장 적절한 목적 함수를 설계하는 데 중점을 둡니다. 동시에 예측에 필요한 충분한 정보를 효과적으로 획득할 수 있도록 적절한 아키텍처를 설계해야 합니다. 기존의 방법들은 입력 데이터가 계층적으로 특징 추출 및 공간 변환을 거치면서 대량의 정보가 손실된다는 사실을 간과하고 있습니다. 본 논문은 딥 네트워크를 통과할 때 발생하는 데이터 손실 문제, 즉 정보 브로커너(Information Bottleneck)와 역함수(Reversible Functions)에 대해 심층적으로 탐구합니다. 다양한 목표를 달성하기 위해 딥 네트워크가 요구하는 다양한 변화에 대응하기 위해 프로그래머블 그레디언트 정보(Programmable Gradient Information, PGI)라는 개념을 제안합니다. PGI는 목적 함수를 계산할 때 타겟 작업에 필요한 완전한 입력 정보를 제공함으로써 신뢰할 수 있는 그레디언트 정보를 확보하여 네트워크 가중치를 업데이트할 수 있도록 합니다. 또한, 그레디언트 경로 계획(Gradient Path Planning)을 기반으로 한 새로운 경량 네트워크 아키텍처인 일반화된 효율적인 레이어 집합 네트워크(Generalized Efficient Layer Aggregation Network, GELAN)를 설계하였습니다. GELAN 아키텍처는 경량 모델에서 PGI가 우수한 성능을 발휘함을 입증하였습니다. 제안된 GELAN과 PGI는 MS COCO 데이터셋 기반의 객체 탐지 실험을 통해 검증되었습니다. 실험 결과, GELAN은 일반적인 컨볼루션 연산자만을 사용함에도 불구하고, 깊이 분할 컨볼루션(depth-wise convolution) 기반으로 개발된 최첨단 기법들보다 더 뛰어난 파라미터 활용률을 달성하였습니다. PGI는 경량 모델부터 대규모 모델까지 다양한 모델에 적용 가능하며, 완전한 정보를 획득할 수 있어, 대규모 데이터셋으로 사전 훈련된 상태의 최첨단 모델보다 사전 훈련 없이 직접 훈련한 모델이 더 우수한 성능을 달성할 수 있음을 보여줍니다. 비교 결과는 그림 1에 제시되어 있습니다. 소스 코드는 다음과 같습니다: https://github.com/WongKinYiu/yolov9.