
이전의 적대적 훈련은 자연 데이터에 대한 정확도를 희생함으로써 모델의 강건성을 높였다. 본 논문에서는 자연 데이터 정확도 저하를 최소화하는 방식을 제안한다. 우리는 하나의 정제된 모델이 출력하는 로짓(logit)을 다른 강건한 모델의 학습을 안내하는 데 활용한다. 이는 잘 훈련된 정제된 모델의 로짓이 자연 데이터의 가장 구분 가능한 특징, 예를 들어 일반화 가능한 분류 경계(classifier boundary)를 포함하고 있음을 고려한 것이다. 본 연구의 핵심은, 적대적 예제를 입력으로 받는 강건 모델의 로짓을 해당 자연 데이터를 입력으로 받는 정제된 모델의 로짓과 유사하게 제약하는 것이다. 이를 통해 강건 모델은 정제된 모델의 분류 경계를 이어받을 수 있다. 더불어, 이러한 경계 안내 방식은 높은 자연 데이터 정확도를 유지할 뿐만 아니라 모델의 강건성에도 기여함을 관찰하였으며, 이는 적대적 학습 공동체에 새로운 통찰을 제공하고 발전을 촉진한다. 마지막으로, CIFAR-10, CIFAR-100, Tiny ImageNet에서 실시한 광범위한 실험을 통해 본 방법의 효과성을 입증하였다. 특히, 추가적인 진짜 또는 합성 데이터 없이 auto-attack 벤치마크 \footnote{\url{https://github.com/fra31/auto-attack}} 기준으로 CIFAR-100에서 새로운 최고 성능(SOTA)의 강건성을 달성하였다. 본 연구의 코드는 \url{https://github.com/dvlab-research/LBGAT}에서 공개되어 있다.