HyperAIHyperAI
il y a 2 mois

Détecteur semi-supervisé de fraude bancaire par carte de crédit via une représentation graphique guidée par les attributs

Sheng Xiang; Mingzhi Zhu; Dawei Cheng; Enxia Li; Ruihui Zhao; Yi Ouyang; Ling Chen; Yefeng Zheng
Détecteur semi-supervisé de fraude bancaire par carte de crédit via une représentation graphique guidée par les attributs
Résumé

La fraude aux cartes de crédit entraîne des coûts considérables tant pour les détenteurs de cartes que pour les banques émettrices. Les méthodes actuelles utilisent des classifieurs basés sur l'apprentissage automatique pour détecter le comportement frauduleux à partir d'enregistrements de transactions étiquetés. Cependant, les données étiquetées représentent généralement une petite proportion des milliards de transactions réelles en raison des coûts élevés d'étiquetage, ce qui signifie qu'elles n'exploitent pas pleinement de nombreuses caractéristiques naturelles provenant des données non étiquetées. Nous proposons donc un réseau neuronal graphique semi-supervisé pour la détection de fraude. Plus précisément, nous utilisons les enregistrements de transactions pour construire un graphe temporel de transactions, composé de transactions temporelles (nœuds) et d'interactions (arêtes) entre elles. Ensuite, nous transmettons des messages entre les nœuds via un Réseau d'Attention Temporelle Géré (Gated Temporal Attention Network - GTAN) afin d'apprendre la représentation des transactions. Nous modélisons également les schémas de fraude par la propagation du risque entre les transactions. Des expériences approfondies ont été menées sur un ensemble de données réelles de transactions et deux ensembles de données publics pour la détection de fraude. Les résultats montrent que notre méthode proposée, nommée GTAN, surpassent les autres méthodes avancées sur trois ensembles de données de détection de fraude. Les expériences semi-supervisées démontrent également les excellentes performances de notre modèle en matière de détection de fraude avec seulement une petite proportion de données étiquetées.