Auf der Überholspur : DFKI installiert neuartiges KI-System für Machine Learning

© DFKI

Die Rechenleistung des Machine Learning-Clusters des DFKI wird damit mehr als verdoppelt, von derzeit ca. 20 PetaFLOPS auf 45 PetaFLOPS. Die dritte Generation des NVIDIA DGX-Systems bietet mit jeweils acht der weltweit fortschrittlichsten NVIDIA A100 Tensor Core Rechenbeschleunigern 5 PetaFLOPS an Leistung. Ein PetaFLOP entspricht 1 Billiarde Rechenoperationen pro Sekunde. Zum Vergleich: Würde man jedem Menschen auf der Welt einen Taschenrechner geben und jeder würde damit innerhalb einer Sekunde 125.000 Berechnungen durchführen, entspräche die Rechenleistung etwa einem PetaFLOP. Gleichzeitig wird der Energieverbrauch des hocheffizienten Rechenzentrums weiter optimiert. Während vorhergehende Systeme etwa 5 Kilowatt pro PetaFLOP verbrauchen, sind es bei der DGX A100 nur noch ca. 1,2.

Rechenprobleme schnell lösen

Die KI-Infrastruktur des DFKI nutzt das NVIDIA Mellanox InfiniBand Netzwerk, um die DGX-Systeme mit einer ultraschnellen Fabric mit niedriger Latenz zu verbinden, was ein Multisystem-KI-Training ermöglicht und so die schnellste Zeit zur Lösung von Rechenproblemen bietet. Das DFKI setzt die neuen Systeme als einer der weltweit ersten Anwender ein. Damit wird die KI-Forschung zu lernenden Systemen und deren Erklärbarkeit weiter beschleunigt und komplexe KI-Algorithmen werden für den praktischen Einsatz in der Industrie verfügbar gemacht. „Hochleistungsfähige Hardware ist eine zentrale Grundlage für datenreiche und rechenintensive KI-Methoden“, so Andreas Dengel, Geschäftsführender Direktor und Leiter des Forschungsbereichs Smarte Daten & Wissensdienste in Kaiserslautern. „Durch die immense Zunahme der Datenmengen in den verschiedensten Anwendungsfeldern verlangen viele unserer Projektfragestellungen und auch der Markt nach der optimalen Kombination von hochleistungsfähigen KI-Rechensystemen und ausgeklügelten Algorithmen.“ „Die grenzüberschreitende Forschung des DFKI erfordert eine ebenso fortschrittliche KI-Infrastruktur, die Einsichten liefern kann, um ihre Forschung voranzutreiben“, sagt Tony Paikeday, Senior Director of Product Marketing für DGX-Systeme bei NVIDIA. „Die NVIDIA DGX A100 ist das ultimative Werkzeug zur Beschleunigung der wissenschaftlichen Exploration. Er bietet die Rechenressourcen, die das DFKI für die Datenanalyse, das Training und die Inferenz benötigt und bietet eine beispiellose Rechendichte, Leistung und Flexibilität.“

Installiert wurde das System in Kooperation mit dem französischen IT-Dienstleister und Cluster-Spezialisten ATOS. Mit NVIDIA, als Weltmarktführer für Computer-Grafik und KI-Computing, arbeitet das DFKI bereits seit einigen Jahren erfolgreich zusammen. Neben der Einbindung der DGX A100 wird das DFKI optimierte Container für Deep Learning-Frameworks wie TensorFlow und PyTorch einsetzen, die über NGC, NVIDIAs Hub für GPU-optimierte Software für Deep Learning, maschinelles Lernen und Hochleistungsrechnen, leicht zugänglich sind, und erweitern. Auf Basis von NVIDIA KI-Plattformen erzielten die DFKI-Wissenschaftlerinnen und Wissenschaftler in den letzten Jahren bemerkenswerte Ergebnisse in der Anwendung, der Erklärbarkeit und zur Optimierung von Neuronalen Netzen und Deep Learning-Methoden. Zudem ist NVIDIA kürzlich dem Gesellschafterkreis des DFKI beigetreten.