KI-Modell identifiziert über eine Million Arten – größte digitale Zoosammlung auf NVIDIA-GPUs
Tanya Berger-Wolf, Direktorin des Translational Data Analytics Institute und Professorin an der Ohio State University, hat mit BioCLIP 2 einen bahnbrechenden Fortschritt in der computergestützten Biologie vorgestellt. Ursprünglich entstand das Projekt als Wette mit einem Kollegen, ob sie ein KI-Modell bauen könne, das Zebras schneller identifiziert als ein Zoologe – und sie gewann. Heute geht es um viel mehr: BioCLIP 2 ist ein biologisches Grundmodell, das auf dem weltweit größten und vielfältigsten Datensatz von Organismen trainiert wurde – TREEOFLIFE-200M mit 214 Millionen Bildern aus über 925.000 taxonomischen Klassen, von Affen bis zu Mücken und Magnolien. Die Daten wurden gemeinsam mit dem Smithsonian-Institut, Universitätsforschern und Fachorganisationen zusammengestellt. Mit 32 NVIDIA H100-GPUs wurde das Modell über zehn Tage trainiert und zeigte überraschende Fähigkeiten: Es erkannte ohne explizite Anleitung Unterschiede zwischen Männchen und Weibchen, Adulten und Jungtieren, und ordnete Arten wie Darwins Finken nach Schnabellänge, obwohl es den Begriff „Größe“ nie gelernt hatte. Die Modellarchitektur lernt taxonomische Hierarchien durch Muster in den Daten, nicht durch vorgegebene Regeln. Außerdem kann es Krankheiten bei Pflanzen erkennen – etwa zwischen gesunden und erkrankten Apfel- oder Blaubeerblättern – und intra- und interspezifische Variationen in Cluster aufteilen. Die Forscher nutzten eine GPU-Infrastruktur mit 64 Tensor Core GPUs für das Training und Einzel-GPUs für die Inferenz. BioCLIP 2 ist Open Source auf Hugging Face verfügbar und wurde letztes Monat über 45.000 Mal heruntergeladen. Die Ergebnisse werden auf der NeurIPS-Konferenz in Mexiko-Stadt und San Diego vorgestellt. Die nächste Vision von Berger-Wolf ist die Entwicklung eines interaktiven „Wildtier-Digital Twins“, der ökologische Wechselwirkungen simulieren kann – ohne natürliche Ökosysteme zu stören. Dies ermöglicht es Wissenschaftlern, hypothetische Szenarien zu testen, wie zum Beispiel „Was passiert, wenn eine Art ausstirbt?“, und die Perspektive eines Tieres innerhalb einer Gemeinschaft zu erleben. Solche Tools könnten eines Tages auch für die Öffentlichkeit nutzbar werden, etwa in interaktiven Ausstellungen in Zoos, wo Besucher beispielsweise die Welt aus der Sicht eines Zebras oder einer Spinne erleben könnten. „Ich bekomme Gänsehaut, wenn ich mir vorstelle, wie ein Kind im Zoo denkt: ‚Wow, so sieht es aus, wenn man ein Zebra in der Herde ist‘“, sagt Berger-Wolf. Die Technologie markiert einen Sprung von der Analyse einzelner Arten hin zur systemischen Erforschung von Ökosystemen. Ohne die Leistungsfähigkeit von NVIDIA-GPUs wäre ein solches Projekt nicht möglich. Industrieexperten loben BioCLIP 2 als Meilenstein in der KI-gestützten Biodiversitätsforschung. Es adressiert kritische Datenlücken in der Erhaltungswissenschaft, insbesondere für weniger bekannte Arten wie Insekten oder Pilze. Die Kombination aus massivem Datensatz, offener Zugänglichkeit und multipler Anwendbarkeit macht das Modell zu einem wertvollen Ressourcen für Wissenschaft, Naturschutz und Bildung. Die Imageomics Institute, an dem Berger-Wolf leitet, etabliert sich als führendes Zentrum für datenbasierte biologische Forschung. Mit BioCLIP 2 wird KI nicht nur zu einem Analysewerkzeug, sondern zu einem kreativen Partner in der Erforschung der biologischen Vielfalt.
