NVIDIA DGX SuperPOD

NVIDIA DGX SuperPOD

Der NVIDIA DGX SuperPOD™ ist eine optimierte Rechenzentrumslösung mit 32x (1SU) und bis zu 127x (2SU) DGX™ H100 Servern, Speicherservern und Netzwerk-Switches zur Unterstützung des Trainings und der Inferenz von KI-Modellen mit einem oder mehreren Knoten unter Verwendung von NVIDIA KI-Software.

Die weltweit erste einsatzbereite KI-Rechenzentrumslösung

Der NVIDIA DGX SuperPOD ist eine KI-Infrastrukturplattform für Rechenzentren, die es der IT ermöglicht, Leistung ohne Kompromisse für jeden Benutzer und jeden Workload bereitzustellen. Der DGX SuperPOD bietet eine beschleunigte Infrastruktur der Spitzenklasse und agile, skalierbare Leistung für die anspruchsvollsten KI- und HPC-Workloads (High Performance Computing) mit branchenerprobten Ergebnissen.

Die wichtigsten Komponenten des DGX SuperPOD™

Die DGX SuperPOD Architektur wurde entwickelt, um die Leistung für modernstes Modelltraining zu maximieren, auf Exaflops zu skalieren, enorm großen Speicher bereitzustellen und alle Kunden in Unternehmen, Hochschulen, Forschung und dem öffentlichen Sektor zu unterstützen. Es ist ein wichtiger Bestandteil des NVIDIA-Forschungs- und Entwicklungssystems, was bedeutet, dass die gesamte Software, die Anwendungen und die Supportstruktur des Unternehmens zunächst auf derselben Architektur getestet, geprüft und genutzt werden. Durch den Einsatz von SUs (Scalable Units) werden die Systembereitstellungszeiten oder der Aufwand zur Erweiterung sehr niedrig gehalten.
Viele DGX SuperPOD Lösungen werden von großen und bekannten Kunden, im Bereich Data Center und Cloud-Service, auf der ganzen Welt genutzt.

Für die Skalierung mit dem DGX SuperPOD™ sind zwei Modelle für die KI-Infrastruktur verfügbar.
Nutzen Sie einen oder beide für Ihre Unternehmens-KI.
full_rack

(Hier wird eine 1SU Einheit, bestehend aus 32x DGX H100 Systemen, abgebildet)

DGX SuperPOD mit NVIDIA DGX A100-Systemen

Ideal für eine skalierte Infrastruktur, die große Unternehmensteams mit verschiedenen KI-Workloads unterstützt, z. B. bei der Durchführung modernster Forschung, der Optimierung von Lieferketten oder der Extrahierung von Intelligenz aus Datenbergen.

DGX SuperPOD mit NVIDIA DGX H100-Systemen

Für extrem gesteigerte Leistung insbesondere im Bereich von kalkulierbaren Lösungen, großer Sprachmodelle sowie diverser Deep-Learning Aufgaben, steht der H100 SuperPOD dem gesamtem Unternehmen, ohne Kompromisse, zur Verfügung.

Technische Daten - DGX SuperPOD™ (inkl. DGX H100-Server)
VerwendungKomponentenBeschreibung 
  Compute Nodes127 x NVIDIA DGX H100 Server (8x 80 GB H100 GPUs) Vierte Generation der weltweit führenden KI-Systeme mit NVIDIA H100 Tensor Core Grafikprozessoren, NVIDIA NVLink® der vierten Generation und NVIDIA NVSwitch™ Technologien der dritten Generation.
  Compute fabricNVIDIA Quantum QM9700 NDR 400 Gbps InfiniBandSchienenoptimiertes, vollständiges Fat-Tree-Netzwerk mit acht NDR400-Verbindungen pro System 
  Storage fabricNVIDIA Quantum QM9700 NDR 400 Gb/s InfiniBandFat-Tree mit acht NDR400-Verbindungen pro System. Die Fabric ist so optimiert, dass sie der Spitzenleistung des konfigurierten Speicherarrays entspricht 
  Compute/storage Fabric ManagementNVIDIA Unified Fabric Manager, Enterprise Edition NVIDIA UFM kombiniert erweiterte Echtzeit-Netzwerktelemetrie mit KI-gestützter Cyber-Intelligenz und -Analyse zur Verwaltung von skalierbaren InfiniBand-Rechenzentren
  In-band Management NetworkNVIDIA SN4600 SwitchEthernet-Switch mit 64 Anschlüssen und 100 Gbit/s, der eine hohe Anschlussdichte bei hoher Leistung bietet 
  Out-of-band Management NetworkNVIDIA SN2201 SwitchEthernet-Switch mit 48 Anschlüssen und 1 Gbit/s, der Kupferanschlüsse nutzt, um die Komplexität zu minimieren 
  DGX SuperPOD Software



NVIDIA Base Command ManagerCluster Management für DGX SuperPOD 
NVIDIA AI EnterpriseErstklassige Entwicklungstools und Frameworks für KI-Anwender sowie zuverlässige Verwaltung und Orchestrierung für IT-Experten
Magnum IODie NVIDIA MAGNUM IO™ ermöglicht eine höhere Leistung für KI und HPC
NVIDIA NGCDer NGC-Katalog bietet eine Sammlung von GPU-optimierten Containern für KI und HPC
  BenutzerumgebungSlurmSlurm ist ein klassischer Workload-Manager, der zur Verwaltung komplexer Workloads in einer Batch-Umgebung mit mehreren Knoten verwendet wird. 

 

DGX SuperPOD™ Software

Der DGX SuperPOD ist eine integrierte Hardware- und Softwarelösung. Die enthaltene Software ist von Grund auf für KI optimiert. Von den beschleunigten Frameworks und der Workflow-Verwaltung bis hin zur Systemverwaltung und den Low-Level-Optimierungen des Betriebssystems ist jeder Teil des Stacks darauf ausgelegt, die Leistung und den Wert des DGX SuperPOD zu maximieren.

dgx_superpod_software
NVIDIA Base Command

NVIDIA Base Command ist die Basis für jeden DGX SuperPOD und ermöglicht es Unternehmen, das Beste aus der NVIDIA Software-Innovation zu nutzen. Mit einer bewährten Plattform, die Orchestrierung und Cluster-Management in Unternehmensqualität, Bibliotheken zur Beschleunigung der Rechen-, Speicher- und Netzwerkinfrastruktur sowie ein für KI-Workloads optimiertes Betriebssystem umfasst, können Unternehmen das volle Potenzial ihrer Investitionen ausschöpfen.

NVIDIA AI Enterprise

NVIDIA AI Enterprise ist eine Suite von KI- und Datenanalysesoftware, die für die Entwicklung und den Einsatz von KI optimiert ist. NVIDIA AI Enterprise umfasst bewährte, quelloffene Container und Frameworks wie NVIDIA RAPIDS, NVIDIA TAO Toolkit, NVIDIA TensorRT™ und NVIDIA Triton Inference Server, die für die Ausführung auf DGX SuperPOD zertifiziert sind und unterstützt werden. NVIDIA AI Enterprise ist im Lieferumfang von DGX SuperPOD enthalten und wird in Kombination mit NVIDIA Base Command und NVIDIA NGC verwendet.

NVIDIA NGC

Das Portal für Services, Software und Support für KI, maschinelles Lernen und High Performance Computing.

Der NGC-Katalog bietet eine Reihe von Ressourcen, die die Anforderungen von Datenwissenschaftlern, Entwicklern und Forschern mit unterschiedlichem Know-how erfüllen. Hierzu gehören Container, vorab trainierte Modelle, domänenspezifische SDKs, anwendungsfallbasierte Sammlungen und Helm-Charts für die schnellsten KI-Implementierungen.

ngc-workflow-icon-industry-solutions

Schnellere Bereitstellung von Lösungen mit sofort einsatzbereiten KI-Workflows

Der NGC-Katalog enthält das NVIDIA TAO Toolkit, NVIDIA Triton™ Inference Server und NVIDIA TensorRT™, die es Entwicklern von Deep-Learning-Anwendungen und Datenwissenschaftlern ermöglichen, Deep-Learning-Modelle neu zu trainieren und sie einfach für die Inferenz zu optimieren und bereitzustellen.

ngc-workflow-icon-containers

Schnellere Bereitstellung und Ausführung von Workloads mit Containern

Der NGC-Katalog hostet Container für die wichtigste KI- und Datenwissenschaftssoftware, die von NVIDIA abgestimmt, getestet und optimiert wurde. Außerdem sind vollständig getestete Container für HPC-Anwendungen und Datenanalysen verfügbar, sodass Benutzer Lösungen aus einem getesteten Framework mit vollständiger Kontrolle erstellen können.

ngc-workflow-icon-models

Beschleunigen von KI-Projekten mit vorab trainierten Modellen

Vorab trainierte Modelle, detaillierte Codeskripts mit Schritt-für-Schritt-Anweisungen und Hilfsskripts für eine Vielzahl gängiger KI-Aufgaben, die für NVIDIA Tensor Core-GPUs optimiert sind, ermöglichen einen idealen Start. Modelle lassen sich ganz einfach neu trainieren, indem nur einige Schichten aktualisiert werden, was wertvolle Zeit spart. Jedes Modell enthält eine Modellzusammenfassung, in der Details zum Datensatz aufgeführt sind, der zum Trainieren des Modells verwendet wurde. Ferner enthält sie eine detaillierte Dokumentation und Informationen zu den Einschränkungen des Modells.

ngc-workflow-icon-collections

Erstellen Sie KI-Lösungen schneller mit der Software, die Sie benötigen

Mit Sammlungen lassen sich kompatible Framework-Container, Modelle, Juptyer Notebooks und weitere Ressourcen ganz einfach entdecken, um schneller mit KI zu starten. Die jeweiligen Sammlungen enthalten zudem detaillierte Dokumentationen zur Bereitstellung der Inhalte für bestimmte Anwendungsfälle.

Der NGC-Katalog bietet sofort einsatzbereite Sammlungen für verschiedene Anwendungen, darunter NLP, ASR, intelligente Videoanalysen und Objekterkennung.

ngc-workflow-icon-helm-charts

Automatisierte Bereitstellungen mit Helm-Charts

Helm-Charts automatisieren die Softwarebereitstellung auf Kubernetes-Clustern. Der NGC-Katalog hostet Kubernetes-fähige Helm-Charts, die eine konsistente und sichere Bereitstellung von Software von NVIDIA und Drittanbietern vereinfachen.

NVIDIA GPU Operator ist eine Suite von NVIDIA-Treibern, Container-Laufzeit, Geräte-Plug-ins und Verwaltungssoftware, die IT-Teams in Kubernetes-Clustern installieren können, um Benutzern schnelleren Zugriff auf ihre Workloads zu ermöglichen.

FAZIT

Der DGX SuperPOD stellt ein komplettes System dar, das nicht nur aus Hardware, sondern auch aus der gesamten erforderlichen Software besteht, um die Zeit bis zur Bereitstellung zu verkürzen, die Systemverwaltung zu optimieren, Systemprobleme proaktiv zu erkennen und die gleiche beschleunigte Software zu unterstützen, die Sie auf dem DGX SuperPOD, auf Laptops oder anderen NVIDIA GPU-basierten Systemen einsetzen. Die Kombination all dieser Komponenten sorgt dafür, dass die Systeme zuverlässig und mit maximaler Leistung laufen, und ermöglicht es den Benutzern, die Grenzen des Stands der Technik zu erweitern. Die Plattform ist so konzipiert, dass sie sowohl die Arbeitslasten von heute unterstützt als auch mit den Anwendungen von morgen wächst.


H
aben Sie Fragen zu dem NVIDIA DGX SuperPOD, helfen oder geben wir Ihnen dazu gerne eine Auskunft. 
Kontakt:   
Tel: +49 40 300672 - 0    |   Fax: +49 40 300672 - 11   |   E-Mail: info[at]delta.de