HyperAI
Back to Headlines

Pour les banques, l’inférence IA est désormais aussi complexe que l’entraînement

il y a 7 jours

Dans le secteur des services financiers (FSI), l’inférence par intelligence artificielle (IA) s’est révélée aussi complexe, voire plus, que l’entraînement des modèles, un contraste marqué avec l’époque où les modèles traditionnels étaient petits et l’inférence quasi transparente. Aujourd’hui, avec l’essor de l’IA générative (GenAI), les entreprises financières – banques commerciales et d’investissement, compagnies d’assurance, sociétés de trading – doivent faire face à une diversité sans précédent d’exigences en matière d’inférence. Les modèles doivent non seulement être précis et fiables, mais aussi fonctionner sur des dispositifs variés : smartphones, bornes dans les agences bancaires, ou encore centres de données, tout en maintenant une latence faible. Cette contrainte entraîne des besoins croissants en calcul, mémoire et stockage, parfois nécessitant des infrastructures massives. Les cas d’usage sont multiples. D’un côté, on retrouve la finance quantitative classique : gestion des risques, évaluation actuarielle, back-testing d’algorithmes de trading. De l’autre, l’analyse avancée grâce à des données alternatives (actualités, sentiment, images satellites, flux vidéo), permettant une meilleure compréhension du marché. Enfin, l’expérience client est transformée par des chatbots conversationnels, des moteurs de recommandation, des assistants intelligents et des systèmes d’automatisation documentaire. Des outils comme IndexGPT de JPMorgan Chase, basé sur GPT-4, génèrent automatiquement des mots-clés pour créer des indices thématiques, une fonctionnalité désormais disponible via Bloomberg et Vida. Bien que ces indices soient actuellement statiques, leur évolution vers une dynamique personnalisée dépendra de la baisse du coût de l’inférence. Bank of America et Wells Fargo ont également lancé des assistants financiers : Erica et Fargo. Erica, lancée en 2018, fonctionne avec un ensemble prédéfini de réponses, sans génération de tokens par LLM, mais accélérée par des GPU. Fargo, quant à lui, utilise une petite LLM locale pour la transcription vocale, filtre les données personnelles (PII) et appelle ensuite des modèles distants comme Google Gemini Flash, Claude Sonnet ou Llama. Le nombre d’interactions a explosé, passant de 21,3 millions en 2023 à 245,5 millions en 2024, illustrant la montée en puissance de l’inférence. Face à cette demande croissante, les infrastructures évoluent vers des systèmes rack-scale optimisés. Nvidia propose ainsi les racks GB300 NVL72 (72 GPU Blackwell B300, 1,1 petaflops en FP4) et le futur VR200 NVL144 (3,6 exaflops en FP4), conçus pour des raisonnements complexes comme le « chain of thought », où plusieurs modèles interagissent pour résoudre des problèmes complexes. Ces systèmes exigent des architectures à mémoire partagée et une gestion fine de la latence. Le stockage, longtemps négligé, devient crucial. Des solutions comme Vast Data ou Hammerspace utilisent des caches clé-valeur, des mémoires persistantes et des systèmes de fichiers distribués pour étendre la mémoire GPU, réduire les calculs redondants et accélérer les sessions utilisateur. En stockant l’état des requêtes dans des pools de stockage réseau (NFS sur RDMA), on évite de recalculer des sessions entières après une inactivité, ce qui est vital compte tenu de la croissance quadratique du coût avec la longueur de la fenêtre contextuelle. Les FSI, bien que très discrètes sur leurs déploiements, sont des pionniers dans la gestion de l’inférence complexe. Leur expérience montre que l’inférence n’est plus un simple ajout, mais un pilier central des systèmes financiers modernes. Leur adoption progressive des architectures de pointe, couplée à des innovations en stockage, devrait inspirer d’autres secteurs. Toutefois, la confiance dans les sorties des modèles plus grands et plus complexes reste un frein majeur, surtout dans un environnement fortement réglementé. Les hedge funds, eux, resteront plus agressifs, tandis que les banques privilégieront la prudence. L’avenir de l’inférence en IA repose donc autant sur l’innovation technologique que sur la capacité à garantir fiabilité, sécurité et rentabilité.

Related Links