ContextNet: Ein Klick-Through-Rate-Vorhersage-Rahmenwerk, das kontextuelle Informationen nutzt, um Feature-Embeddings zu verfeinern

Die Schätzung der Klickrate (Click-Through Rate, CTR) ist eine zentrale Aufgabe in personalisierten Werbe- und Empfehlungssystemen, wobei es für Ranking-Modelle entscheidend ist, komplexe, hochordentliche Merkmalsinteraktionen effektiv zu erfassen. Inspiriert durch den Erfolg von ELMO und BERT im Bereich der natürlichen Sprachverarbeitung (NLP), bei denen Wort-Embeddings dynamisch anhand des Kontexts der jeweiligen Satzinformation angepasst werden, vermuten wir, dass auch bei CTR-Schätzaufgaben die Embeddings jedes Merkmals schichtweise dynamisch anhand der im Eingabepunkt enthaltenen Kontextinformationen verfeinert werden sollten. Auf diese Weise können wir nützliche Merkmalsinteraktionen effektiv erfassen. In diesem Artikel stellen wir einen neuartigen CTR-Framework namens ContextNet vor, der hochordentliche Merkmalsinteraktionen implizit modelliert, indem er die Embeddings jedes Merkmals dynamisch anhand des Eingabekontexts verfeinert. Konkret besteht ContextNet aus zwei Schlüsselkomponenten: dem Kontext-Embedding-Modul und dem ContextNet-Block. Das Kontext-Embedding-Modul aggregiert für jedes Merkmal kontextuelle Informationen aus dem Eingabepunkt, während der ContextNet-Block die Embeddings der Merkmale schichtweise aufrechterhält und deren Darstellung dynamisch durch die Integration kontextbasierter, hochordentlicher Interaktionsinformationen in die Merkmals-Embeddings verfeinert. Um den Rahmen konkret zu gestalten, leiten wir zwei Modelle (ContextNet-PFFN und ContextNet-SFFN) innerhalb dieses Frameworks ab, indem wir ein lineares Kontext-Embedding-Netzwerk sowie zwei nichtlineare Abbildungssubnetzwerke im ContextNet-Block einführen. Wir führen umfangreiche Experimente auf vier realen Datensätzen durch, und die Ergebnisse zeigen deutlich, dass unsere vorgeschlagenen Modelle ContextNet-PFFN und ContextNet-SFFN state-of-the-art-Modelle wie DeepFM und xDeepFM überlegen sind.