HyperAI
Back to Headlines

KI-Infereenz in der Finanzbranche: Herausforderung und Innovation

vor 7 Tagen

In der Finanzdienstleistungsbranche (FSI) ist der Einsatz von KI-Infereenz – also das Ausführen von Modellen zur Entscheidungsfindung oder Reaktion auf neue Daten – heute ebenso herausfordernd wie das Training selbst. Früher war das Training aufwändig, aber die Infereenz einfach, da Modelle klein und leicht zu betreiben waren. Heute sind generative KI-Modelle so groß und komplex, dass die Infereenz zu einem zentralen technologischen und wirtschaftlichen Problem geworden ist. Finanzinstitute wie JPMorgan Chase, Bank of America und Wells Fargo setzen GenAI in unterschiedlichen Bereichen ein: von quantitativen Finanzmodellen und Risikobewertungen über die Analyse alternativer Datenquellen (wie Nachrichten, Satellitenbilder oder Video) bis hin zu Kundenservice-Chats, personalisierten Empfehlungen und automatisierten Dokumentenprozessen. Besonders auffällig ist die rasante Zunahme der Interaktionen mit KI-Assistenten: Wells Fargos Fargo-App verzeichnete 2023 noch 21,3 Millionen, 2024 bereits 245,5 Millionen Interaktionen – ein Anstieg um mehr als das Zehnfache. Diese Explosion erfordert extrem leistungsfähige, kosteneffiziente Infereenz-Infrastrukturen. Die Infereenz findet heute auf einer Vielzahl von Hardware-Plattformen statt – von CPUs mit Tensor- und Vector-Engines über GPUs bis hin zu FPGAs und spezialisierten ASICs. Für komplexe Aufgaben wie „Chain-of-Thought“-Reasoning, bei dem mehrere Modelle kooperativ ein Problem lösen, werden nun rackskalierte Systeme benötigt. Nvidia präsentiert mit dem GB300 NVL72 (72 Blackwell-B300-GPUs) und dem kommenden VR200 NVL144 (88-Core Grace CPU + Rubin-GPU) Systeme, die 3,6 Exaflops FP4-Infereenz-Leistung bieten. Diese Systeme sind für die parallele Ausführung vieler kleiner Modelle optimiert und ermöglichen tiefere, qualitativ bessere Entscheidungen – allerdings mit hohem Energie- und Platzbedarf. Für Banken in Großstädten mit begrenztem Strom und fehlender Flüssigkeitskühlung bleiben kleinere, mehrere GPUs umfassende Lösungen relevant. Ein entscheidender Faktor ist die Rolle der Speicherung. Früher ein „Afterthought“, ist Speicher heute unverzichtbar für kosteneffiziente Infereenz. Key-Value-Caches und Context-Window-Caches speichern Zwischenzustände, um wiederholte Berechnungen zu vermeiden. Persistent Memory ermöglicht es, Sitzungsstände zu speichern, sodass nach einer Pause nicht die gesamte Rechnung neu gestartet werden muss – was die Kosten, die quadratisch mit der Kontextlänge steigen, drastisch senkt. Unternehmen wie Vast Data und Hammerspace bieten Lösungen, die Speicher als globales Netzwerk über RDMA und NFS bereitstellen und Daten in eine „Tier-0“-Distributed-File-System-Struktur bringen, um die Datenverfügbarkeit für GPU-Server zu optimieren. Obwohl FSI-Unternehmen äußerst zurückhaltend mit der Offenlegung ihrer KI-Strategien sind – verständlicherweise, da sie sensible Finanzdaten verwalten –, liefern sie wichtige Impulse für die gesamte Wirtschaft. Denn während nicht jedes Unternehmen Modelle trainieren muss, wird jeder in Zukunft KI-Infereenz betreiben. Die Erfahrungen der Finanzbranche zeigen, dass Infereenz nicht nur eine Frage der Rechenleistung, sondern auch der Architektur, Speicherstrategie und Datensicherheit ist. Die Entwicklung hin zu rack- und sogar rowskalierenden Systemen, kombiniert mit intelligenten Speicherlösungen, wird entscheidend dafür sein, ob KI in der Finanzwelt nachhaltig und wirtschaftlich einsetzbar ist. Die Branche steht an der Schwelle einer neuen Ära, in der die Effizienz der Infereenz die Innovationskraft bestimmt.

Related Links