Um Ihnen die Funktionen unseres Online-Shops uneingeschränkt anbieten zu können setzen wir Cookies ein. Weitere Informationen
NVIDIA Vera Rubin™
Die Plattform für Frontier-Inferenz und agentische KI.
Bis zu 3,6 ExaFLOPS NVFP4-Inferenz, 20,7 TB HBM4 und NVLink 6 mit 260 TB/s Aggregat-Bandbreite. Ein 100 % flüssigkeitsgekühltes Rack für die nächste Generation von Reasoning-Modellen, Agenten-Workflows und Million-Token-Kontextfenstern.

Warum Vera Rubin?
NVIDIA Vera Rubin ist die nächste Rack-Scale-Generation nach Grace Blackwell. Sie kombiniert die Vera CPU mit 88 Olympus-Arm-Kernen und 1,8 TB/s NVLink-C2C-Bandbreite, die Rubin GPU mit HBM4-Speicher und nativer NVFP4-Beschleunigung sowie Confidential Computing der 3. Generation, das eine vertrauliche Ausführungsumgebung über das gesamte Rack hinweg etabliert. Sechs Gründe, warum Sie für Ihre nächste KI-Infrastruktur Vera Rubin in Betracht ziehen sollten.
5× mehr Inferenz
Bis zu 5× höhere NVFP4-Inferenz pro GPU gegenüber Blackwell. Dazu 3,5× mehr Trainingsleistung und 10× geringere Token-Kosten für Reasoning-Modelle.
Million-Token-Kontext
Die Plattform ist nativ auf Million-Token-Kontextfenster ausgelegt. NVIDIAs Disaggregated-Inference-Architektur trennt Prefill und Decode. Der spezialisierte Prefill-Beschleuniger Rubin CPX steht auf der NVIDIA-Roadmap.
Confidential Computing
3. Generation Confidential Computing schützt CPU, GPU und NVLink in einer einheitlichen vertrauensvollen Ausführungsumgebung – mit Attestierungsdiensten für Compliance-Nachweise.
100 % Liquid-Cooled
45 °C Inlet-Wassertemperatur ermöglicht ganzjährig Free Cooling in DACH-Datacentern. Reduzierte Kühlleistung und niedrigere PUE-Werte gegenüber luftgekühlten Bestandsanlagen.
Portierbarer CUDA-Stack
Identischer CUDA-Stack über DGX Spark, Station, B300, GB300 und Vera Rubin. Code, der auf einer DGX Spark prototypisiert wird, läuft unverändert auf einem Vera-Rubin-Rack.
DELTA als End-to-End-Partner
Vom Site Survey über Beschaffungsbegleitung, P2P-Mapping, Liquid-Cooling-Anbindung bis zum mehrjährigen Hardware-Support – alles aus einer Hand, vom NVIDIA Elite Partner.
Frontier-Inferenz in Zahlen.
Sechs Kennzahlen, die den Sprung von Blackwell auf Vera Rubin definieren. Alle Werte beziehen sich auf das NVL72-Rack.
Sieben Chips. Eine AI-Fabrik.
Vera Rubin ist die erste NVIDIA-Plattform, die sieben aufeinander abgestimmte Chip-Klassen in einem Rack-Scale-System vereint: zwei Compute-Chips (Vera CPU, Rubin GPU), zwei Switch-Chips (NVLink 6, Spectrum 6), zwei Networking-Chips (ConnectX‑9, BlueField‑4) und einen spezialisierten Inferenz-Beschleuniger (Rubin CPX, NVIDIA-Roadmap). Jeder dieser Chips ist co-designed für die anderen sechs.

Vera CPU
88 proprietäre Olympus-Kerne (Armv9.2) mit SMT2 für bis zu 176 parallele Threads. 1,8 TB/s NVLink-C2C-Bandbreite zur Rubin GPU, doppelt so hoch wie Grace.

Rubin GPU
Bis zu 50 PFLOPS NVFP4-Inferenz pro GPU. Zwei Compute-Tiles auf TSMC 3 nm mit 288 GB HBM4-Speicher. NVLink 6 mit 3,6 TB/s pro GPU.

NVLink 6
Sechste NVLink-Generation. Verdoppelt Blackwells Bandbreite. 9 NVSwitch-Trays bilden im NVL72 eine kohärente Domain über 72 Rubin GPUs – 260 TB/s aggregiert.

ConnectX‑9
SuperNIC mit 800 Gb/s pro Port und PCIe 6.0 x16. NIC-Direct-Anbindung an die Rubin GPU ohne CPU-Umweg. Endpunkt für Quantum-X800 InfiniBand und Spectrum-X Ethernet.

BlueField‑4 DPU
Übernimmt Storage, Sicherheit, Telemetrie und Netzwerk-Orchestrierung von der Host-CPU. Verwaltet 8 ConnectX-9-NICs in der Astra-Architektur. 64-Core Grace-CPU integriert.

Spectrum‑6
Sechste Spectrum-Generation für Spectrum-X Ethernet. CPO-Variante (Co-Packaged Optics) reduziert Strombedarf für Long-Haul-Verbindungen zwischen Racks und Sites.

Rubin CPX
Spezialisierter Prefill-Beschleuniger für Million-Token-Kontextfenster. 30 PFLOPS NVFP4 mit GDDR7-Speicher. Im VR NVL144 CPX kombiniert mit 144 Rubin-HBM-GPUs. Verfügbarkeit nach NVIDIA-Freigabe.
Co-Design.
Sieben Chip-Klassen, in einem Sprung zur Reife gebracht. Jeder Chip ist auf die anderen sechs hin entwickelt, was eine kohärente Plattform statt einer Toolbox ergibt.
NVIDIA hat die Plattform 2025 zunächst als NVL144 angekündigt. Gezählt wurden dabei die 144 Compute-Dies (zwei Dies pro Rubin-Package × 72 Packages). Seit der CES 2026 zählt NVIDIA wieder ganze Packages. Das offizielle Produkt heißt daher Vera Rubin NVL72. Die Variante Vera Rubin NVL144 CPX (NVIDIA-Roadmap) würde die 144er-Notation behalten, weil dort zusätzlich 144 dedizierte Rubin-CPX-GPUs vorgesehen sind. Verfügbarkeit und finale Konfiguration werden von NVIDIA festgelegt.
Spezifikationen im Direktvergleich
Vera Rubin NVL72, Vera Rubin NVL144 CPX und die Vorgängergeneration GB300 NVL72 im direkten Vergleich. Alle Werte basieren auf NVIDIAs öffentlichen Angaben. Die Spalte VR NVL144 CPX zeigt NVIDIAs Roadmap-Stand. Finale Verfügbarkeit nach NVIDIA-Freigabe.
| HEUTE | 2026 | ||
|---|---|---|---|
| Eigenschaft | GB300 NVL72 | VR NVL72 | VR NVL144 CPX |
| GPU-Architektur | Blackwell Ultra | Rubin | Rubin + Rubin CPX |
| GPU-Anzahl | 72 (B300) | 72 Rubin Packages | 144 Rubin + 144 CPX |
| CPU | 36× Grace | 36× Vera (88 Olympus-Cores) | 36× Vera |
| HBM-Speicher | ~21 TB HBM3e | 20,7 TB HBM4 | ~33 TB HBM4 + GDDR7 |
| Inferenz NVFP4 | 1,1 ExaFLOPS | 3,6 ExaFLOPS | 8 ExaFLOPS |
| Training FP8 | 0,72 ExaFLOPS | 1,2 ExaFLOPS | 1,2 ExaFLOPS |
| NVLink-Bandbreite/GPU | 1,8 TB/s (NVLink 5) | 3,6 TB/s (NVLink 6) | 3,6 TB/s (NVLink 6) |
| Scale-Out je SuperNIC | 800 Gb/s (ConnectX-8) | 800 Gb/s (ConnectX-9) | 800 Gb/s (ConnectX-9) |
| Compute Trays | 18 | 18 | 18 (12 GPUs/Tray) |
| NVSwitch Trays | 9 (NVSwitch 5) | 9 (NVSwitch 6) | 9 (NVSwitch 6) |
| Power je Rack | ~120 kW | ~190 kW | ~370 kW |
| Power-Distribution | 415 VAC | 415 VAC | 415 VAC |
| Kühlung | Liquid-Cooled | 100 % Liquid (45 °C Inlet) | 100 % Liquid (45 °C Inlet) |
| DPU | BlueField-3 | BlueField-4 (optional) | BlueField-4 |
| Confidential Computing | 2. Generation (GPU) | 3. Generation (rack-skaliert) | 3. Generation (rack-skaliert) |
| Verfügbarkeit | Aktuell lieferbar | Q3 2026 | Ende 2026 |
Stand: Mai 2026
Wie ein Vera-Rubin-Rack aufgebaut ist.
Das MGX-Chassis teilt sich in drei modulare Tray-Klassen. Drei architektonische Änderungen gegenüber GB300 sind besonders relevant für die Datacenter-Planung, und damit für die Vorlaufzeit Ihrer Beschaffung.

4× Rubin GPU + 2× Vera CPU
Pro Tray sind vier Rubin-GPU-Packages und zwei Vera-CPUs auf einer flachen Midplane verbaut. Drei Detailänderungen gegenüber GB300:
- NIC-Direct via ConnectX-9 – Rubin spricht den 800-Gb/s SuperNIC ohne Umweg über die CPU an
- Lokales NVMe wandert auf das Orchid-Modul, von ConnectX-9 verwaltet (zuvor BlueField-3)
- BlueField-4 DPU dirigiert Front-End und 8 Back-End-NICs zentral – Astra-Architektur

9 Switch Trays, 3,6 TB/s pro GPU
Neun NVSwitch-6-Trays binden alle 72 Rubin-Packages zu einem kohärenten Scale-Up-Pool. Verdoppelte Bandbreite gegenüber GB300 NVL72:
- NVLink 6: 3,6 TB/s pro GPU bidirektional
- Hot-swappable – Switch-Tausch ohne Rack-Shutdown
- Inline-Telemetrie für Health-Checks zwischen Trainingsläufen
- RAS-Features der 2. Generation: einzelne GPU-Prüfung ohne Cluster-Drop

BlueField‑4 STX Storage
Für SuperPOD-Konfigurationen führt NVIDIA dedizierte BlueField-4-STX-Racks ein. Sie entlasten die Compute-Trays von Storage-Last und KV-Cache-Offloading:
- Inference Context Storage mit Multi-Vendor-Support
- NIXL GPU Direct Storage Libraries
- Optimiertes KV-Cache-Offloading für Million-Token-Workflows
- 800 Gb/s Frontend über BlueField-4 mit 64‑Core Grace
415 VAC vs. 800 VDC
Vera Rubin NVL72 läuft heute über die etablierte 415-VAC-Drehstrom-Versorgung in jedem europäischen Datacenter. Die Folgegeneration Vera Rubin Ultra im Kyber-Rack wechselt 2027 auf 800 VDC native. Ein architektonischer Bruch, der die heutige Power-Pipeline halbiert.
415 VAC
- Mittelspannung (10–30 kV) vom Energieversorger
- Trafo zu 415-VAC-Drehstrom ins Datacenter
- USV / PDU verteilt an die Racks
- Rack-PSUs wandeln auf 54 VDC
- VRMs am Compute-Tray wandeln auf 12 VDC, finale Stage auf 0,7–1,2 V Core-Spannung
- In jedem Bestandsdatacenter verfügbar
- Etabliertes Personal-Skillset
- Genehmigungs- und Brandschutz-Standards bekannt
- Komponenten-Ökosystem ausgereift
- Power-Distribution-Standards (DIN, IEC) seit Jahrzehnten etabliert
- Kompatibel mit USV-Standardlösungen ohne DC-Umrüstung
- Bis zu 200 kg Kupfer-Busbar pro 1‑MW‑Rack
- 4–5 Wandlungsstufen, Verluste durch I²R
- Bei 1 MW pro Rack: bis zu 64 HE Power-Shelves
- Skin-Effekt und Blindleistungs-Management
- Wirkungsgradverlust ~5 bis 7 % kumuliert über alle Wandlungsstufen
- Skalierung über ~150 kW pro Rack erfordert baulichen Eingriff
800 VDC native
- Mittelspannung (10–30 kV) vom Energieversorger
- Solid-State-Transformer zu 800 VDC direkt
- Hochspannungs-DC-Busway zu jedem Rack
- Eine LLC-Resonanz-Stage 800 V zu 12 VDC
- VRM zur Core-Spannung
- +157 % Leistung pro Leiterquerschnitt
- −45 % Kupferbedarf
- Bis zu 5 % bessere End-to-End-Effizienz
- Bis zu −70 % Wartungskosten
- Skaliert auf > 1 MW pro Rack
- Eliminiert AC-spezifische Verluste
- Datacenter-Umbau erforderlich
- Nur qualifiziertes Personal am Equipment
- Neue SiC- und GaN-Komponenten
- Vertiv 800-VDC-Portfolio Q3 2026
- OCP-Standards in Erarbeitung
- Roll-out 2027
Beim heutigen Vera-Rubin-NVL72 ist die Power-Frage entspannt: 415-VAC-Drehstrom mit ~190 kW pro Rack lässt sich in jedem deutschen Universitäts-Rechenzentrum darstellen, vergleichbar zur heutigen GB300-NVL72-Planung. DELTA unterstützt bei Site-Survey, P2P-Mapping, Verkabelung und Liquid-Cooling-Anbindung.
Der Schritt zu Vera Rubin Ultra im Kyber-Rack 2027 ist ein anderer: Hier reden wir über DC-Hochspannungs-Versorgung, Solid-State-Transformer am Datacenter-Eingang und 600-kW-Racks. Das ist 2026 noch kein Universitätsthema. Wer aber Großgeräte-Beschaffungen mit Laufzeit bis 2028 oder darüber hinaus stellt, sollte die 800-VDC-Roadmap kennen.
Vera Rubin in drei Skalierungsstufen.
Vom DGX-Server für das institutsweite Lab bis zum SuperPOD-Cluster für Forschungsbau-Projekte. Eine Architektur, ein CUDA-Stack, drei Hardware-Klassen. Alle drei Konfigurationen sind 2026 bestellbar.

DGX Rubin NVL8
Der Einstieg in die Vera-Rubin-Generation. 8 Rubin GPUs auf einem DGX-Baseboard in einem 19‑Zoll-Server. Eingebaut wie klassische HGX-Systeme.
- 8 Rubin GPUs, etwa 2,3 TB HBM4
- NVLink-Domain auf 8 GPUs begrenzt
- ~30–50 kW pro Rack
- Liquid-Cooling Pflicht (kein Air-SKU)
- Bestands-RZ, klassische Beschaffung

Vera Rubin NVL72
Das vollständig vorintegrierte Rack als ein einziges System. 72 Rubin GPUs bilden eine kohärente NVLink-Domain, programmierbar wie eine GPU.
- 3,6 ExaFLOPS NVFP4 / 1,2 ExaFLOPS FP8
- 20,7 TB HBM4 + 54 TB LPDDR5X
- 18 Compute-Trays, 9 NVSwitch-Trays
- ~190 kW · 100 % Liquid-Cooled
- Großgerät / Forschungsbau

Vera Rubin POD
Mehrere NVL72-Racks vernetzt über Quantum-X800 InfiniBand oder Spectrum-X Ethernet. DELTAs Domäne, aus produktiver SuperPOD-Erfahrung mit Mercury und Arion.
- Skalierbar auf hunderte GPUs
- 800 Gb/s ConnectX-9 Scale-Out
- BlueField-4 STX Storage optional
- NVIDIA Mission Control Cluster-Mgmt
- Forschungsbau / Industrieprojekt
Wenn Inferenz nicht mehr in einen GPU-Typ passt
Moderne LLM-Inferenz hat zwei sehr unterschiedliche Phasen: Prefill (Million-Token-Kontext einlesen, parallelisierbar, durchsatz-gebunden) und Decode (Token-für-Token-Generation, latenz-gebunden, speicherbandbreiten-hungrig). Beide auf der gleichen GPU laufen zu lassen ist ineffizient. NVIDIAs Antwort: Rubin CPX, eine GPU, die ausschließlich für die Prefill-Phase optimiert ist. Auf der NVIDIA-Roadmap, Verfügbarkeit und finale Specs werden von NVIDIA finalisiert.

Was Rubin CPX anders macht
- 30 PFLOPS NVFP4 pro CPX-GPU
- GDDR7 statt HBM – günstiger, hoch-bandbreitig genug für Prefill
- 3× Attention-Acceleration vs. GB300 NVL72
- Kein NVLink – PCIe-Anbindung, da Decode auf den Rubin-HBM-GPUs läuft
- NVL144‑CPX‑Tray: 4× Rubin SXM (HBM) + 8× Rubin CPX (GDDR7)
Wann es sich lohnt
- Code-Agenten mit langlaufenden Repository-Kontexten
- Video-Generation mit Multi-Minute-Prompt-Verläufen
- Massive-Context Reasoning – 200K-Token-Workflows oder größer
- Deep Research und Document Q&A über ganze Bibliotheken
- Workloads, bei denen > 70 % der Latenz aus dem Prefill kommen
Was NVIDIA verspricht
Werte aus NVIDIAs Vera-Rubin-Pressematerial 09/2025; NVIDIA hat die Disaggregated-Inference-Strategie auf der GTC 2026 geschärft, finale ROI-Aussagen folgen mit der Roadmap-Freigabe. Die ROI-Aussagen von NVIDIA sind hochgradig workload-abhängig und gelten vor allem für Inferenz-Provider mit hohem Auslastungsgrad und Million-Token-Kontextfenstern.
Vom Schreibtisch zur AI Factory
Vera Rubin ist das institutsweite Endspiel von DELTAs NVIDIA-Portfolio. Code, der heute auf einer DGX Spark prototypisiert wird, läuft unverändert auf einem Vera-Rubin-NVL72-Rack, identischer CUDA-Stack, durchgängiges NVAIE-Lifecycle-Modell.
DGX Spark
1× GB10
128 GB unified
1 PFLOP FP4
Desktop, ~120 W
Prototyping, Edge AI
DGX Station
1× GB300 Desktop
748 GB coherent
20 PFLOPS FP4
Deskside, 1,6 kW
Forschung, Lehre, Lab
DGX B300
8× Blackwell Ultra
2,3 TB HBM3e
144 PFLOPS FP4
10U Rack, ~15 kW
DGX Server, AI Factory
GB300 NVL72
72× GB300
~21 TB HBM3e
1,1 EFLOPS FP4
Rack, ~120 kW
SuperPOD, AI Factory
Vera Rubin NVL72
72× Rubin + 36× Vera
20,7 TB HBM4
3,6 EFLOPS NVFP4
Rack, ~190 kW
Frontier-Inferenz, Reasoning
Identischer CUDA-Stack über alle Stufen.
Was auf der DGX Spark prototypisiert wird, läuft auf einer DGX Station mit 7 MIG-Instanzen, skaliert über DGX-B300-Server zum GB300-NVL72-Rack und am Ende des Lebenszyklus auf Vera-Rubin-Infrastruktur. Kein Re-Engineering, keine Container-Migration, keine Workload-Umschreibung. Das ist der mit Abstand stärkste Grund, eine institutsweite KI-Strategie auf einer einzigen NVIDIA-Generation aufzubauen.
Every step of the way
Ein Vera-Rubin-NVL72-Rack ist nicht etwas, das man bestellt und am nächsten Mittwoch auspackt. Zwischen Beauftragung und produktivem Cluster liegen 8 bis 14 Monate Vorlauf. DELTA begleitet jede dieser Phasen, vom ersten Site-Survey bis zum 24/7-Support nach dem Go-Live.
Benchmarks vor der Beschaffung.
Im DELTA Test Center in Glinde validieren wir Ihre konkreten Workloads auf produktiver NVIDIA-Hardware. Aktuell stehen DGX B300, RTX PRO 6000 Server und ab Verfügbarkeit DGX Station (coming soon) zur Verfügung. Vera-Rubin-Slots werden ab Plattform-Verfügbarkeit (Q3 2026) freigegeben.
Der Vorteil: belastbare Performance-Daten für Ihre Beschaffungsentscheidung, Risiko-Reduktion vor sechs- bis siebenstelligen Investitionen, und Erfahrungs-Transfer zwischen DELTAs Engineering und Ihrem Forschungsteam.

Wer Vera Rubin einsetzt.
DELTAs Vera-Rubin-Kunden kommen aus sechs typischen Forschungs- und Anwendungsfeldern. Workload-Profile und Beschaffungsbegleitung passen wir an die jeweilige Domäne an.
Helmholtz, Max-Planck, Fraunhofer
Großforschungseinrichtungen mit Frontier-Modell-Training, Foundation-Model-Forschung, Materialwissenschaft, Klimasimulation und Lebenswissenschaften. Typisch: NVL72 als Großgerät oder im Forschungsbau.
Universitäten
Mathematik, Informatik, Physik, Wirtschaftsinformatik. Geteilte Nutzung über mehrere Lehrstühle hinweg, MIG-Multi-Tenant-Setup. Typisch: DGX NVL8 als institutsweites Rechenzentrum mit Slurm-Scheduling.
Universitätskliniken
Medizinische Bildgebung, Diagnose-KI, Forschung an Foundation-Models für die Medizin. Konfidenz-Computing der 3. Generation für DSGVO-Compliance bei Patientendaten. Typisch: DGX NVL8 oder einzelnes NVL72-Rack.
Automotive
Autonomes Fahren, ADAS-Validierung, Simulation, Foundation-Model-Training für Fahrzeugsysteme. Typisch: NVL72 oder POD mit hohem Trainings-Anteil und Storage-STX.
Pharma und Life Sciences
Drug Discovery, Protein-Folding, klinische NLP-Modelle, Genomik. Confidential Computing für IP-Schutz. Typisch: NVL72 mit Forschungs-Datacenter-Anbindung.
Forschungsnahe Service Provider
GPU-Cloud-Anbieter, Inferenz-Provider, AI-Agentur-Plattformen. Typisch: Vera Rubin POD als Multi-Tenant-Basis. Für Million-Token-Kontext-Workloads ist NVL144 CPX (NVIDIA-Roadmap) vorgesehen.
Mercury & Arion: Vom DGX-H100-Top-Tier zu Europas erstem GB200 NVL72.
DELTA ist nicht erst seit Vera Rubin in der SuperPOD‑Liga. Für DeepL haben wir bereits zwei produktive DGX‑SuperPOD‑Cluster integriert, und damit die zwei wichtigsten europäischen Referenzen, die NVIDIAs Frontier‑Strategie auf dem Kontinent prägen.
Mercury
Einer der ersten DGX-H100-SuperPODs in Europa. Von DELTA für DeepL integriert, in Betrieb genommen und über mehrere Jahre supportet. Mercury markierte den Schritt von Hopper-Forschung zur produktiven Foundation-Model-Infrastruktur in Europa.
Arion
Europas erster DGX GB200 NVL72 SuperPOD, ebenfalls für DeepL und ebenfalls von DELTA integriert. Mit Arion war DELTA der erste deutsche Partner, der eine Rack-Scale-Blackwell-Plattform produktiv ans Netz gebracht hat – ein Jahr vor der allgemeinen Verfügbarkeit von Vera Rubin.
Diese Erfahrung aus zwei SuperPOD‑Bring‑ups in Folge fließt direkt in unsere Vera‑Rubin‑Beratung und ‑Integration ein.
Ihr NVIDIA Elite Partner für Vera Rubin.
DELTA Computer Products GmbH ist seit 1985 am Markt. Als einer der wenigen NVIDIA Elite Partner in Deutschland mit produktiver SuperPOD-Erfahrung realisieren wir DGX- und HGX-Infrastrukturen für Universitäten, Helmholtz- und Max-Planck-Institute, Fraunhofer-Einrichtungen, Universitätskliniken sowie forschungsnahe Unternehmen im DACH-Raum.
Unser Test Center in Glinde steht für Vera-Rubin-Vorabevaluierungen ab Verfügbarkeit zur Verfügung. Bis dahin können Sie Ihre Workloads auf produktiven DGX-B300-Systemen validieren, bei identischem CUDA-Stack ist die Migration auf Vera Rubin später ohne Code-Änderung möglich.

D-21509 Glinde
Vera Rubin Dossier von DELTA
Ausführliche technische und kommerzielle Aufbereitung der Vera-Rubin-Plattform: Architektur, Roadmap, Bezugsoptionen, Beschaffungs-Hinweise und Workload-Empfehlungen. Erstellt für Beschaffungsteams in Forschungseinrichtungen.
Häufig gestellte Fragen
Antworten auf die 19 Fragen, die unsere Kunden im DACH-Raum beim Vera-Rubin-Sondierungsgespräch am häufigsten stellen. Technische Begriffe sind im Glossar am Ende der Seite kurz erklärt.
Schnell-Erklärungen
Was ist Vera Rubin überhaupt?+
Vera Rubin ist NVIDIAs nächste Generation von KI-Hardware nach Blackwell. Vera bezeichnet die neue CPU, Rubin die neue GPU. Beide werden in einem Rack-Scale-System kombiniert (Vera Rubin NVL72) und sind ab Q3 2026 verfügbar. Die Plattform ist für Reasoning-Modelle, agentische KI und Million-Token-Kontextfenster ausgelegt. Alle technischen Begriffe finden Sie im Glossar am Ende der Seite.
Was bedeutet NVFP4?+
NVFP4 ist NVIDIAs 4-Bit-Floating-Point-Datenformat für Inferenz und Training. Es ermöglicht deutlich höheren Durchsatz als FP8 oder FP16 bei minimalem Genauigkeitsverlust. Die Hardware-Beschleunigung ist im Transformer Engine der Rubin GPU integriert. Mehr im Glossar.
Was heißt liquid-cooled konkret?+
100 % Liquid-Cooled bedeutet, dass alle Hauptwärmequellen (CPU, GPU, NVSwitch) direkt über kalte Wasserplatten gekühlt werden. Vera Rubin akzeptiert 45 °C Inlet-Wassertemperatur, was in DACH-Klimazonen praktisch ganzjähriges Free Cooling erlaubt. Eine Coolant Distribution Unit (CDU) trennt den primären RZ-Kreislauf vom Rack-internen Kreislauf. Restwärme über Luft beträgt nur etwa 5–10 %.
Wer ist DELTA und warum NVIDIA Elite Partner?+
DELTA Computer Products GmbH aus Glinde bei Hamburg ist seit 1985 am Markt und gehört zu den wenigen NVIDIA Elite Partnern in Deutschland mit produktiver SuperPOD-Erfahrung. Wir haben für DeepL Europas erste DGX-H100- und DGX-GB200-NVL72-SuperPODs (Mercury und Arion) integriert. Elite Partner ist die höchste Partnerstufe von NVIDIA, mit direktem Engineering-Zugang und Priorisierung bei Produkt-Allokationen.
Produkt und Architektur
Was ist die NVIDIA Vera Rubin Plattform?+
NVIDIAs Rack-Scale-AI-Architektur der nächsten Generation. Sie löst die Blackwell-Ultra-Generation ab und besteht aus sieben aufeinander abgestimmten Chips: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 Switch und Rubin CPX. Verfügbar ab Q3 2026 über mehr als 50 MGX-Partner. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.
NVL72 oder NVL144, was stimmt jetzt?+
Beide Begriffe bezeichnen dasselbe Rack. NVIDIAs offizielle Produktbezeichnung ist Vera Rubin NVL72. NVL144 zählt die 144 Reticle-Compute-Dies (zwei Dies pro Rubin-Package). Die Variante Vera Rubin NVL144 CPX behält die 144er-Notation bewusst, weil dort zusätzlich 144 dedizierte Rubin-CPX-GPUs verbaut sind. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.
Welche Performance-Vorteile bringt Vera Rubin gegenüber Blackwell?+
Laut NVIDIAs offiziellen Aussagen: bis zu 5× höhere NVFP4-Inferenz pro GPU, 3,5× mehr Trainingsleistung und 10× geringere Token-Kosten gegenüber Blackwell. Hinzu kommen Confidential Computing der 3. Generation und die NVLink-6-Verdopplung der Scale-Up-Bandbreite auf 3,6 TB/s pro GPU.
Verfügbarkeit und Beschaffung
Wann ist die Plattform tatsächlich verfügbar?+
NVIDIA hat Vera Rubin NVL72 für Q3 2026 angekündigt, mit Volumenauslieferungen über mehr als 50 MGX-Partner. Vera Rubin NVL144 CPX folgt Ende 2026. Vera Rubin Ultra im Kyber-Rack startet 2027. Für konkrete Liefertermine ist eine Anfrage über DELTA mit Ihrer Workload- und Power-Spezifikation der schnellste Weg. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.
Wie lang ist die typische Vorlaufzeit von Anfrage bis produktivem Cluster?+
Aus produktiven SuperPOD-Projekten (Mercury und Arion): 8 bis 14 Monate ab Vertragsunterschrift. Davon entfallen typischerweise 4 bis 7 Monate auf OEM-Fertigung und Auslieferung, der Rest auf Site-Vorbereitung (Cooling, Power-Upgrade, Cabling) und Bring-up. Bei Großgeräteanträgen kommt die Antrags- und Bewilligungsphase davor.
Können wir heute schon auf DGX B300 anfangen und später auf Vera Rubin migrieren?+
Ja, das ist der empfohlene Pfad für Forschungseinrichtungen, die jetzt produktiv arbeiten wollen. Der CUDA-Stack ist über alle Generationen identisch. Kein Code-Refactoring beim Wechsel von B300 auf Rubin. NVAIE-Lizenzen sind übertragbar mit Update auf die jeweilige Major-Version. Das Test Center in Glinde steht für Validierung Ihrer Workloads auf produktivem B300 zur Verfügung.
Power und Cooling
Was braucht ein Vera-Rubin-NVL72-Rack an Strom und Kühlung?+
Power: ~190 kW pro Rack, geliefert über 415-VAC-Drehstrom mit redundanter Einspeisung. Spürbar mehr als das heute oft verbaute 100-kW-pro-Rack-Niveau.
Cooling: 100 % Liquid-Cooled mit 45 °C Inlet-Wasser. Datacenter-freundlich, weil Free Cooling fast ganzjährig möglich ist. Sie brauchen einen Sekundärkreis mit ausreichender CDU-Kapazität (~210 kW thermisch je Rack als Reserve). Restwärme über Luft: ~5 bis 10 %, üblicher Hot-Aisle reicht.
Brauchen wir 800 VDC im Datacenter?+
Nein, für Vera Rubin NVL72 und Vera Rubin NVL144 CPX nicht. Beide Plattformen werden klassisch über 415-VAC-Drehstrom versorgt. 800 VDC wird erst für Vera Rubin Ultra im Kyber-Rack 2027 Pflicht. Bis dahin ist 800 VDC ein Datacenter-Modernisierungsthema, das Sie strategisch im Auge behalten, aber 2026 nicht aktiv adressieren müssen. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.
Wir haben heute nur 100 kW pro Rack, was tun?+
Drei Wege: Erstens, Power-Upgrade auf 200 kW pro Rack mit Ihrem RZ-Betreiber abstimmen – meist ohne baulichen Eingriff über stärkere PDUs machbar. Zweitens, alternative Konfiguration als DGX NVL8-Server, der mit 30 bis 50 kW pro Rack auskommt. Drittens, Co-Location bei einem AI-Datacenter-Anbieter, der bereits 200+ kW pro Rack stellt. DELTA berät bei allen drei Wegen.
Konfigurationsentscheidung
Welche Variante passt zu uns: DGX NVL8, NVL72 oder NVL144 CPX?+
DGX Rubin NVL8 für 8-GPU-Workloads, klassische Server-Klasse, Bestands-RZ mit 30 bis 50 kW pro Rack. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.
Vera Rubin NVL72 für allgemeine Forschung, Training mittlerer bis großer Modelle, Mixed Workloads, kohärente NVLink-Domain über 72 GPUs.
Vera Rubin NVL144 CPX, wenn Ihre Inferenz dominanter Workload ist und Sie mit Million-Token-Kontextfenstern arbeiten – Code-Agenten, Document-AI, Video-Generation, Deep Research. Hier liefert CPX 7,5× mehr Performance pro Rack als GB300 NVL72.
Faustregel: Wenn mehr als 60 % Ihrer Token aus Prefill-Phasen kommen, lohnt CPX.
Können wir später ein Standard-NVL72 zu einem NVL144 CPX upgraden?+
Ja. NVIDIA bietet dedizierte CPX-Compute-Trays für Bestandskunden mit VR-NVL72-Racks an. Alternativ gibt es das Vera Rubin CPX Dual Rack, ein zweites Rack neben dem NVL72, gefüllt mit 144 Rubin-CPX-GPUs, verbunden über externes PCIe. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.
Was unterscheidet HGX-Server von Rack-Scale-Systemen wirklich?+
Die NVLink-Domain: ein HGX-Server hat 8 GPUs in einer NVLink-Domain, ein NVL72-Rack hat 72 GPUs in einer einzigen kohärenten Domain. Bei NVL72 können Sie ein 1-Billion-Parameter-Modell als ein einziger Memory-Pool ansprechen, ohne explizites Sharding. Sobald Sie über die NVLink-Domain hinausgehen, brauchen Sie Scale-Out-Networking (ConnectX-9 plus InfiniBand oder Ethernet) und müssen Ihr Modell explizit sharden.
Beschaffung und DELTA-Service
Vera Rubin als Großgeräte-Beschaffung, wie läuft das?+
Ja. Vera Rubin lässt sich im Rahmen von Großgeräteanträgen nach Art. 91b GG über die DFG, oder als Forschungsbau, beantragen. Wichtig: Der Antrag braucht eine Verfügbarkeits- und Liefertermin-Begründung. DELTA stellt für laufende Anträge eine entsprechende Lieferbestätigungs-Zusage. Auch NVAIE-Lizenzen, Liquid-Cooling-Infrastruktur, Cabling und Service-Pakete sind beantragsfähig.
Welcher Support kommt mit dem Rack?+
Standard ist eine 3-Jahres-Hardware-Garantie über die OEM-Kette (Supermicro, Gigabyte, MSI, Quanta, ASUS, je nach Konfiguration). Optional bietet DELTA Premium Support mit definierten Reaktionszeiten, On-Site-Service und RMA-Abwicklung in Deutschland. NVAIE-Software-Support läuft separat über die NVIDIA-Lizenz.
Macht DELTA auch Cluster-Betrieb oder Managed Services?+
Wir betreiben keine eigenen Cluster für Sie – das gehört in Ihre Hoheit, weil Forschungsdaten unter DSGVO und Hochschul-IT-Richtlinien stehen. Aber wir unterstützen bei Setup, Konfiguration, Validierungsläufen und Updates. Auf Wunsch begleiten wir auch die Schulung Ihres RZ-Teams im Umgang mit NVIDIA Mission Control, DGX OS und Slurm oder Kubernetes.
Begriffe in 30 Sekunden
18 Schlüsselbegriffe rund um Vera Rubin, von Olympus-Kernen bis 800 VDC.
Quellen und Hinweise+
Stand 03/2026: NVIDIA hat auf der GTC 2026 die Disaggregated-Inference-Strategie geschärft. Verfügbarkeit, Zeitplan und finale Hardware-Komponenten für die Decode-Phase werden von NVIDIA finalisiert.
NVIDIA-Primärquellen:
- NVIDIA Vera Rubin Plattform-Seite
- NVIDIA Technical Blog: Inside the NVIDIA Rubin Platform
- NVIDIA Technical Blog: 800 VDC Architecture Will Power the Next Generation of AI Factories (10/2025)
- NVIDIA Technical Blog: Building the 800 VDC Ecosystem (10/2025)
- NVIDIA Blog: Gigawatt AI Factories & Vera Rubin (OCP, 10/2025)
- NVIDIA Developer Blog: Rubin CPX Accelerates Inference Performance (09/2025)
Konferenz- und Industrie-Quellen:
- OCP Global Summit, Oktober 2025: Vera Rubin NVL144 Specifications & Kyber
- CES 2026: Vera Rubin Naming-Update (NVL72 statt NVL144)
- GTC 2026: Rubin Architecture Deep Dive
- Tom's Hardware: NVIDIA's Vera Rubin Platform In Depth (11/2025)
- The Register: NVIDIA Unpacks Vera Rubin Rack System at CES (01/2026)
- SemiAnalysis: Vera Rubin Extreme Co-Design (02/2026)
- Vertiv 800-VDC Whitepaper / Roadmap Q3 2026
- ABB: Redefining Power Infrastructure for AI: 800 VDC in Data Centers
Hinweise zur Aktualität:
- Stand der gesamten Seite: Mai 2026
- Werte mit der Kennzeichnung „projiziert“ sind NVIDIA-Roadmap-Aussagen und können sich bis zum Launch ändern.
- Performance-Vergleiche gegenüber Blackwell sind NVIDIAs eigene Aussagen und unterliegen workload-spezifischer Variation.
- Liefertermine, Preise und Konfigurations-Details sind über DELTA Computer verbindlich abzuklären.
Bereit für Vera Rubin? Sprechen Sie früh mit DELTA.
Ein Vera-Rubin-Rack kommt nicht in 5 Werktagen aus dem Karton. Workload-Profil, Site-Anforderungen, Förderpfade und der richtige Zeitpunkt für eine Beschaffung sind Themen für ein 30-Minuten-Gespräch. Oder testen Sie heute schon auf einem produktiven DGX B300 in unserem Test Center in Glinde – identischer CUDA-Stack, portierbar zu Vera Rubin.