ContextNet: 특성 임베딩을 정교화하기 위해 맥락 정보를 사용하는 클릭-through 비율 예측 프레임워크

클릭률(Click-through Rate, CTR) 추정은 개인화 광고 및 추천 시스템에서 핵심적인 과제이며, 랭킹 모델이 복잡한 고차원 특징을 효과적으로 포착할 수 있도록 하는 것이 중요하다. 자연어 처리(NLP) 분야에서 ELMO와 BERT의 성공 사례를 영감으로 삼아, 단어가 등장하는 문맥 정보에 따라 단어 임베딩을 동적으로 개선하는 방식이 효과적임을 확인한 바 있다. 이와 유사하게, CTR 추정 작업에서 입력 인스턴스에 포함된 문맥 정보를 기반으로 각 특징의 임베딩을 계층적으로 동적으로 개선하는 것이 중요하다고 판단하였다. 이를 통해 각 특징에 대해 유용한 특징 상호작용을 효과적으로 포착할 수 있다. 본 논문에서는 입력 문맥에 따라 각 특징의 임베딩을 동적으로 개선함으로써 고차원 특징 상호작용을 암묵적으로 모델링하는 새로운 CTR 프레임워크인 ContextNet을 제안한다. 구체적으로 ContextNet은 두 가지 핵심 구성 요소로 구성된다: 문맥 임베딩 모듈(Contextual Embedding Module)과 ContextNet 블록이다. 문맥 임베딩 모듈은 입력 인스턴스로부터 각 특징에 대한 문맥 정보를 집계하며, ContextNet 블록은 각 특징의 임베딩을 계층적으로 유지하면서, 문맥 기반 고차원 상호작용 정보를 특징 임베딩에 병합함으로써 그 표현을 동적으로 개선한다. 프레임워크의 구체화를 위해 ContextNet 블록 내에 선형 문맥 임베딩 네트워크와 두 개의 비선형 매핑 하위 네트워크를 도입하여, 두 가지 모델(ContextNet-PFFN 및 ContextNet-SFFN)을 제안하였다. 네 개의 실세계 데이터셋을 대상으로 실시한 광범위한 실험 결과, 제안한 ContextNet-PFFN 및 ContextNet-SFFN 모델이 DeepFM 및 xDeepFM과 같은 최신 기술을 크게 상회함을 입증하였다.