NVIDIA Vera Rubin™

Die Plattform für Frontier-Inferenz und agentische KI.

Bis zu 3,6 ExaFLOPS NVFP4-Inferenz, 20,7 TB HBM4 und NVLink 6 mit 260 TB/s Aggregat-Bandbreite. Ein 100 % flüssigkeitsgekühltes Rack für die nächste Generation von Reasoning-Modellen, Agenten-Workflows und Million-Token-Kontextfenstern.

nvidia-elite-partner-badge-rgb-for-screen
Q3 2026ab Plattform-Verfügbarkeit lieferbar
Drei SkalierungsstufenDGX NVL8, NVL72, POD
Identischer CUDA-Stackportierbar von Spark bis Rubin
100 % Liquid-Cooledclosed-loop, ab Werk integriert
 
Plattform

Warum Vera Rubin?

NVIDIA Vera Rubin ist die nächste Rack-Scale-Generation nach Grace Blackwell. Sie kombiniert die Vera CPU mit 88 Olympus-Arm-Kernen und 1,8 TB/s NVLink-C2C-Bandbreite, die Rubin GPU mit HBM4-Speicher und nativer NVFP4-Beschleunigung sowie Confidential Computing der 3. Generation, das eine vertrauliche Ausführungsumgebung über das gesamte Rack hinweg etabliert. Sechs Gründe, warum Sie für Ihre nächste KI-Infrastruktur Vera Rubin in Betracht ziehen sollten.

5× mehr Inferenz

Bis zu 5× höhere NVFP4-Inferenz pro GPU gegenüber Blackwell. Dazu 3,5× mehr Trainingsleistung und 10× geringere Token-Kosten für Reasoning-Modelle.

Million-Token-Kontext

Die Plattform ist nativ auf Million-Token-Kontextfenster ausgelegt. NVIDIAs Disaggregated-Inference-Architektur trennt Prefill und Decode. Der spezialisierte Prefill-Beschleuniger Rubin CPX steht auf der NVIDIA-Roadmap.

Confidential Computing

3. Generation Confidential Computing schützt CPU, GPU und NVLink in einer einheitlichen vertrauensvollen Ausführungsumgebung – mit Attestierungsdiensten für Compliance-Nachweise.

100 % Liquid-Cooled

45 °C Inlet-Wassertemperatur ermöglicht ganzjährig Free Cooling in DACH-Datacentern. Reduzierte Kühlleistung und niedrigere PUE-Werte gegenüber luftgekühlten Bestandsanlagen.

Portierbarer CUDA-Stack

Identischer CUDA-Stack über DGX Spark, Station, B300, GB300 und Vera Rubin. Code, der auf einer DGX Spark prototypisiert wird, läuft unverändert auf einem Vera-Rubin-Rack.

DELTA als End-to-End-Partner

Vom Site Survey über Beschaffungsbegleitung, P2P-Mapping, Liquid-Cooling-Anbindung bis zum mehrjährigen Hardware-Support – alles aus einer Hand, vom NVIDIA Elite Partner.

 
Performance

Frontier-Inferenz in Zahlen.

Sechs Kennzahlen, die den Sprung von Blackwell auf Vera Rubin definieren. Alle Werte beziehen sich auf das NVL72-Rack.

Inferenz-Leistung NVFP4
3,6
ExaFLOPS
pro NVL72-Rack, das Drei­einhalb­fache von GB300 NVL72 und in der Größenordnung eines kompletten H100-DGX-SuperPOD aus 2023.
20,7 TB
HBM4 je Rack
3,6 TB/s
NVLink 6 pro GPU
88
Olympus-Cores in Vera
800 Gb/s
ConnectX-9 SuperNIC
45 °C
Inlet, Liquid-Cooled
~190 kW
je NVL72-Rack
 
Architektur

Sieben Chips. Eine AI-Fabrik.

Vera Rubin ist die erste NVIDIA-Plattform, die sieben aufeinander abgestimmte Chip-Klassen in einem Rack-Scale-System vereint: zwei Compute-Chips (Vera CPU, Rubin GPU), zwei Switch-Chips (NVLink 6, Spectrum 6), zwei Networking-Chips (ConnectX‑9, BlueField‑4) und einen spezialisierten Inferenz-Beschleuniger (Rubin CPX, NVIDIA-Roadmap). Jeder dieser Chips ist co-designed für die anderen sechs.

Vera CPU
Compute · Host

Vera CPU

88 proprietäre Olympus-Kerne (Armv9.2) mit SMT2 für bis zu 176 parallele Threads. 1,8 TB/s NVLink-C2C-Bandbreite zur Rubin GPU, doppelt so hoch wie Grace.

Rubin GPU
Compute · Beschleunigung

Rubin GPU

Bis zu 50 PFLOPS NVFP4-Inferenz pro GPU. Zwei Compute-Tiles auf TSMC 3 nm mit 288 GB HBM4-Speicher. NVLink 6 mit 3,6 TB/s pro GPU.

NVLink 6
Switch · Scale-Up

NVLink 6

Sechste NVLink-Generation. Verdoppelt Blackwells Bandbreite. 9 NVSwitch-Trays bilden im NVL72 eine kohärente Domain über 72 Rubin GPUs – 260 TB/s aggregiert.

ConnectX‑9
Networking · Scale-Out

ConnectX‑9

SuperNIC mit 800 Gb/s pro Port und PCIe 6.0 x16. NIC-Direct-Anbindung an die Rubin GPU ohne CPU-Umweg. Endpunkt für Quantum-X800 InfiniBand und Spectrum-X Ethernet.

BlueField‑4 DPU
Networking · Orchestrierung

BlueField‑4 DPU

Übernimmt Storage, Sicherheit, Telemetrie und Netzwerk-Orchestrierung von der Host-CPU. Verwaltet 8 ConnectX-9-NICs in der Astra-Architektur. 64-Core Grace-CPU integriert.

Spectrum‑6
Switch · Ethernet

Spectrum‑6

Sechste Spectrum-Generation für Spectrum-X Ethernet. CPO-Variante (Co-Packaged Optics) reduziert Strombedarf für Long-Haul-Verbindungen zwischen Racks und Sites.

Rubin CPX
Compute · Prefill · Roadmap

Rubin CPX

Spezialisierter Prefill-Beschleuniger für Million-Token-Kontextfenster. 30 PFLOPS NVFP4 mit GDDR7-Speicher. Im VR NVL144 CPX kombiniert mit 144 Rubin-HBM-GPUs. Verfügbarkeit nach NVIDIA-Freigabe.

Sieben Chips

Co-Design.

Sieben Chip-Klassen, in einem Sprung zur Reife gebracht. Jeder Chip ist auf die anderen sechs hin entwickelt, was eine kohärente Plattform statt einer Toolbox ergibt.

 
Hinweis zum Namensschema
NVL72 vs. NVL144

NVIDIA hat die Plattform 2025 zunächst als NVL144 angekündigt. Gezählt wurden dabei die 144 Compute-Dies (zwei Dies pro Rubin-Package × 72 Packages). Seit der CES 2026 zählt NVIDIA wieder ganze Packages. Das offizielle Produkt heißt daher Vera Rubin NVL72. Die Variante Vera Rubin NVL144 CPX (NVIDIA-Roadmap) würde die 144er-Notation behalten, weil dort zusätzlich 144 dedizierte Rubin-CPX-GPUs vorgesehen sind. Verfügbarkeit und finale Konfiguration werden von NVIDIA festgelegt.

 
Technische Daten

Spezifikationen im Direktvergleich

Vera Rubin NVL72, Vera Rubin NVL144 CPX und die Vorgängergeneration GB300 NVL72 im direkten Vergleich. Alle Werte basieren auf NVIDIAs öffentlichen Angaben. Die Spalte VR NVL144 CPX zeigt NVIDIAs Roadmap-Stand. Finale Verfügbarkeit nach NVIDIA-Freigabe.

 HEUTE2026
EigenschaftGB300 NVL72VR NVL72VR NVL144 CPX
GPU-ArchitekturBlackwell UltraRubinRubin + Rubin CPX
GPU-Anzahl72 (B300)72 Rubin Packages144 Rubin + 144 CPX
CPU36× Grace36× Vera (88 Olympus-Cores)36× Vera
HBM-Speicher~21 TB HBM3e20,7 TB HBM4~33 TB HBM4 + GDDR7
Inferenz NVFP41,1 ExaFLOPS3,6 ExaFLOPS8 ExaFLOPS
Training FP80,72 ExaFLOPS1,2 ExaFLOPS1,2 ExaFLOPS
NVLink-Bandbreite/GPU1,8 TB/s (NVLink 5)3,6 TB/s (NVLink 6)3,6 TB/s (NVLink 6)
Scale-Out je SuperNIC800 Gb/s (ConnectX-8)800 Gb/s (ConnectX-9)800 Gb/s (ConnectX-9)
Compute Trays181818 (12 GPUs/Tray)
NVSwitch Trays9 (NVSwitch 5)9 (NVSwitch 6)9 (NVSwitch 6)
Power je Rack~120 kW~190 kW~370 kW
Power-Distribution415 VAC415 VAC415 VAC
KühlungLiquid-Cooled100 % Liquid (45 °C Inlet)100 % Liquid (45 °C Inlet)
DPUBlueField-3BlueField-4 (optional)BlueField-4
Confidential Computing2. Generation (GPU)3. Generation (rack-skaliert)3. Generation (rack-skaliert)
VerfügbarkeitAktuell lieferbarQ3 2026Ende 2026

Stand: Mai 2026

 
Anatomie des Racks

Wie ein Vera-Rubin-Rack aufgebaut ist.

Das MGX-Chassis teilt sich in drei modulare Tray-Klassen. Drei architektonische Änderungen gegenüber GB300 sind besonders relevant für die Datacenter-Planung, und damit für die Vorlaufzeit Ihrer Beschaffung.

4× Rubin GPU + 2× Vera CPU
Compute Tray

4× Rubin GPU + 2× Vera CPU

18 Compute Trays bilden das NVL72-Rack

Pro Tray sind vier Rubin-GPU-Packages und zwei Vera-CPUs auf einer flachen Midplane verbaut. Drei Detailänderungen gegenüber GB300:

  • NIC-Direct via ConnectX-9 – Rubin spricht den 800-Gb/s SuperNIC ohne Umweg über die CPU an
  • Lokales NVMe wandert auf das Orchid-Modul, von ConnectX-9 verwaltet (zuvor BlueField-3)
  • BlueField-4 DPU dirigiert Front-End und 8 Back-End-NICs zentral – Astra-Architektur
9 Switch Trays, 3,6 TB/s pro GPU
NVSwitch 6 Tray

9 Switch Trays, 3,6 TB/s pro GPU

NVSwitch 6 als Scale-Up-Fabric

Neun NVSwitch-6-Trays binden alle 72 Rubin-Packages zu einem kohärenten Scale-Up-Pool. Verdoppelte Bandbreite gegenüber GB300 NVL72:

  • NVLink 6: 3,6 TB/s pro GPU bidirektional
  • Hot-swappable – Switch-Tausch ohne Rack-Shutdown
  • Inline-Telemetrie für Health-Checks zwischen Trainingsläufen
  • RAS-Features der 2. Generation: einzelne GPU-Prüfung ohne Cluster-Drop
BlueField‑4 STX Storage
STX Storage Tray

BlueField‑4 STX Storage

Dedizierte Storage-Trays für Vera Rubin POD

Für SuperPOD-Konfigurationen führt NVIDIA dedizierte BlueField-4-STX-Racks ein. Sie entlasten die Compute-Trays von Storage-Last und KV-Cache-Offloading:

  • Inference Context Storage mit Multi-Vendor-Support
  • NIXL GPU Direct Storage Libraries
  • Optimiertes KV-Cache-Offloading für Million-Token-Workflows
  • 800 Gb/s Frontend über BlueField-4 mit 64‑Core Grace
 
Power-Architektur

415 VAC vs. 800 VDC

Vera Rubin NVL72 läuft heute über die etablierte 415-VAC-Drehstrom-Versorgung in jedem europäischen Datacenter. Die Folgegeneration Vera Rubin Ultra im Kyber-Rack wechselt 2027 auf 800 VDC native. Ein architektonischer Bruch, der die heutige Power-Pipeline halbiert.

Status quo, heute

415 VAC

Drehstrom-Versorgung, klassische Datacenter-Praxis
So fließt der Strom
  1. Mittelspannung (10–30 kV) vom Energieversorger
  2. Trafo zu 415-VAC-Drehstrom ins Datacenter
  3. USV / PDU verteilt an die Racks
  4. Rack-PSUs wandeln auf 54 VDC
  5. VRMs am Compute-Tray wandeln auf 12 VDC, finale Stage auf 0,7–1,2 V Core-Spannung
Vorteile
  • In jedem Bestandsdatacenter verfügbar
  • Etabliertes Personal-Skillset
  • Genehmigungs- und Brandschutz-Standards bekannt
  • Komponenten-Ökosystem ausgereift
  • Power-Distribution-Standards (DIN, IEC) seit Jahrzehnten etabliert
  • Kompatibel mit USV-Standardlösungen ohne DC-Umrüstung
Nachteile
  • Bis zu 200 kg Kupfer-Busbar pro 1‑MW‑Rack
  • 4–5 Wandlungsstufen, Verluste durch I²R
  • Bei 1 MW pro Rack: bis zu 64 HE Power-Shelves
  • Skin-Effekt und Blindleistungs-Management
  • Wirkungsgradverlust ~5 bis 7 % kumuliert über alle Wandlungsstufen
  • Skalierung über ~150 kW pro Rack erfordert baulichen Eingriff
Roadmap, ab 2027

800 VDC native

Direkter Hochspannungs-DC-Bus
So fließt der Strom
  1. Mittelspannung (10–30 kV) vom Energieversorger
  2. Solid-State-Transformer zu 800 VDC direkt
  3. Hochspannungs-DC-Busway zu jedem Rack
  4. Eine LLC-Resonanz-Stage 800 V zu 12 VDC
  5. VRM zur Core-Spannung
Vorteile
  • +157 % Leistung pro Leiterquerschnitt
  • −45 % Kupferbedarf
  • Bis zu 5 % bessere End-to-End-Effizienz
  • Bis zu −70 % Wartungskosten
  • Skaliert auf > 1 MW pro Rack
  • Eliminiert AC-spezifische Verluste
Voraussetzungen
  • Datacenter-Umbau erforderlich
  • Nur qualifiziertes Personal am Equipment
  • Neue SiC- und GaN-Komponenten
  • Vertiv 800-VDC-Portfolio Q3 2026
  • OCP-Standards in Erarbeitung
  • Roll-out 2027
Roadmap · 2027

Vera Rubin Ultra im Kyber-Rack

Die nächste Stufe nach Vera Rubin: 800 VDC native, cable-free Midplane, vertikale Compute-Blades und Skalierung bis zu 600 kW pro Rack. Vorlaufgespräche jetzt schon möglich.

800 VDC
native, Kyber-Rack
600 kW
pro Rack max.
576
Rubin Ultra GPUs
NVL576
Scale-Up-Domain
Was das für Ihre Beschaffung heißt

Beim heutigen Vera-Rubin-NVL72 ist die Power-Frage entspannt: 415-VAC-Drehstrom mit ~190 kW pro Rack lässt sich in jedem deutschen Universitäts-Rechenzentrum darstellen, vergleichbar zur heutigen GB300-NVL72-Planung. DELTA unterstützt bei Site-Survey, P2P-Mapping, Verkabelung und Liquid-Cooling-Anbindung.

Der Schritt zu Vera Rubin Ultra im Kyber-Rack 2027 ist ein anderer: Hier reden wir über DC-Hochspannungs-Versorgung, Solid-State-Transformer am Datacenter-Eingang und 600-kW-Racks. Das ist 2026 noch kein Universitätsthema. Wer aber Großgeräte-Beschaffungen mit Laufzeit bis 2028 oder darüber hinaus stellt, sollte die 800-VDC-Roadmap kennen.

 
Konfigurationen

Vera Rubin in drei Skalierungsstufen.

Vom DGX-Server für das institutsweite Lab bis zum SuperPOD-Cluster für Forschungsbau-Projekte. Eine Architektur, ein CUDA-Stack, drei Hardware-Klassen. Alle drei Konfigurationen sind 2026 bestellbar.

DGX Rubin NVL8
Server-Klasse

DGX Rubin NVL8

8 Rubin GPUs · klassisches Server-Chassis

Der Einstieg in die Vera-Rubin-Generation. 8 Rubin GPUs auf einem DGX-Baseboard in einem 19‑Zoll-Server. Eingebaut wie klassische HGX-Systeme.

  • 8 Rubin GPUs, etwa 2,3 TB HBM4
  • NVLink-Domain auf 8 GPUs begrenzt
  • ~30–50 kW pro Rack
  • Liquid-Cooling Pflicht (kein Air-SKU)
  • Bestands-RZ, klassische Beschaffung
Vera Rubin POD
Multi-Rack-Cluster

Vera Rubin POD

N× NVL72 · SuperPOD-Scale

Mehrere NVL72-Racks vernetzt über Quantum-X800 InfiniBand oder Spectrum-X Ethernet. DELTAs Domäne, aus produktiver SuperPOD-Erfahrung mit Mercury und Arion.

  • Skalierbar auf hunderte GPUs
  • 800 Gb/s ConnectX-9 Scale-Out
  • BlueField-4 STX Storage optional
  • NVIDIA Mission Control Cluster-Mgmt
  • Forschungsbau / Industrieprojekt
 
Rubin CPX Deep-DiveNVIDIA‑Roadmap

Wenn Inferenz nicht mehr in einen GPU-Typ passt

Moderne LLM-Inferenz hat zwei sehr unterschiedliche Phasen: Prefill (Million-Token-Kontext einlesen, parallelisierbar, durchsatz-gebunden) und Decode (Token-für-Token-Generation, latenz-gebunden, speicherbandbreiten-hungrig). Beide auf der gleichen GPU laufen zu lassen ist ineffizient. NVIDIAs Antwort: Rubin CPX, eine GPU, die ausschließlich für die Prefill-Phase optimiert ist. Auf der NVIDIA-Roadmap, Verfügbarkeit und finale Specs werden von NVIDIA finalisiert.

Vera Rubin CPX Rack
01 · Architektur · Coming Soon

Was Rubin CPX anders macht

  • 30 PFLOPS NVFP4 pro CPX-GPU
  • GDDR7 statt HBM – günstiger, hoch-bandbreitig genug für Prefill
  • 3× Attention-Acceleration vs. GB300 NVL72
  • Kein NVLink – PCIe-Anbindung, da Decode auf den Rubin-HBM-GPUs läuft
  • NVL144‑CPX‑Tray: 4× Rubin SXM (HBM) + 8× Rubin CPX (GDDR7)
02 · Anwendung

Wann es sich lohnt

  • Code-Agenten mit langlaufenden Repository-Kontexten
  • Video-Generation mit Multi-Minute-Prompt-Verläufen
  • Massive-Context Reasoning – 200K-Token-Workflows oder größer
  • Deep Research und Document Q&A über ganze Bibliotheken
  • Workloads, bei denen > 70 % der Latenz aus dem Prefill kommen
03 · Wirtschaftlichkeit

Was NVIDIA verspricht

8
ExaFLOPS NVFP4 pro Rack
7,5×
Performance vs. GB300 NVL72
100 TB
Fast Memory pro Rack

Werte aus NVIDIAs Vera-Rubin-Pressematerial 09/2025; NVIDIA hat die Disaggregated-Inference-Strategie auf der GTC 2026 geschärft, finale ROI-Aussagen folgen mit der Roadmap-Freigabe. Die ROI-Aussagen von NVIDIA sind hochgradig workload-abhängig und gelten vor allem für Inferenz-Provider mit hohem Auslastungsgrad und Million-Token-Kontextfenstern.

 
Skalierungspfad

Vom Schreibtisch zur AI Factory

Vera Rubin ist das institutsweite Endspiel von DELTAs NVIDIA-Portfolio. Code, der heute auf einer DGX Spark prototypisiert wird, läuft unverändert auf einem Vera-Rubin-NVL72-Rack, identischer CUDA-Stack, durchgängiges NVAIE-Lifecycle-Modell.

DGX Spark

1× GB10
128 GB unified
1 PFLOP FP4
Desktop, ~120 W

Prototyping, Edge AI

DGX Station

1× GB300 Desktop
748 GB coherent
20 PFLOPS FP4
Deskside, 1,6 kW

Forschung, Lehre, Lab

DGX B300

8× Blackwell Ultra
2,3 TB HBM3e
144 PFLOPS FP4
10U Rack, ~15 kW

DGX Server, AI Factory

GB300 NVL72

72× GB300
~21 TB HBM3e
1,1 EFLOPS FP4
Rack, ~120 kW

SuperPOD, AI Factory

Vera Rubin NVL72

72× Rubin + 36× Vera
20,7 TB HBM4
3,6 EFLOPS NVFP4
Rack, ~190 kW

Frontier-Inferenz, Reasoning

2027
Vera Rubin Ultra
Kyber-Rack, 800 VDC
Ein Versprechen

Identischer CUDA-Stack über alle Stufen.

Was auf der DGX Spark prototypisiert wird, läuft auf einer DGX Station mit 7 MIG-Instanzen, skaliert über DGX-B300-Server zum GB300-NVL72-Rack und am Ende des Lebenszyklus auf Vera-Rubin-Infrastruktur. Kein Re-Engineering, keine Container-Migration, keine Workload-Umschreibung. Das ist der mit Abstand stärkste Grund, eine institutsweite KI-Strategie auf einer einzigen NVIDIA-Generation aufzubauen.

 
DELTA Service

Every step of the way

Ein Vera-Rubin-NVL72-Rack ist nicht etwas, das man bestellt und am nächsten Mittwoch auspackt. Zwischen Beauftragung und produktivem Cluster liegen 8 bis 14 Monate Vorlauf. DELTA begleitet jede dieser Phasen, vom ersten Site-Survey bis zum 24/7-Support nach dem Go-Live.

01
Site Survey
Begehung Ihres Datacenter oder Lab. Aufnahme von Stellfläche, Bodenlast (~1,5 t/m²), Power-Anschluss, Klima- und Brandschutz-Status, Netzwerk-Topologie.
02
Power & Cooling
Auslegung 415-VAC-Versorgung (~190 kW pro NVL72-Rack). CDU-Dimensionierung für 45 °C Inlet-Wasser. Abstimmung mit Facility-Team und Elektroplaner.
03
P2P Mapping
Point-to-Point-Plan für Compute-Trays, NVSwitch-Trays, Storage und Spine-Switches. Kabel-Längen, OSFP-Transceiver-Auswahl, Patch-Panel-Layout.
04
Cabling
Konfektionierung und Verlegung von ConnectX-9-OSFP-Verbindungen, Quantum-X800 InfiniBand oder Spectrum-X Ethernet. Strukturierte Beschriftung, durchgängige Doku.
05
Liquid Cooling
Anschluss der CDU an Ihren Sekundärkreis. Druck- und Dichtigkeitstest, Wasseraufbereitung, Inhibitor-Dosierung, Durchflussregelung pro Rack.
06
Installation
DELTA-Techniker integrieren das Rack vor Ort. NVIDIA Mission Control, DGX OS, Slurm oder Kubernetes nach Ihren Vorgaben. Burn-In, Validierungs-Benchmark, Übergabe-Doku.
07
Operate & Support
Drei Jahre Hardware-Garantie über die OEM-Kette plus optionaler DELTA-Support-Vertrag mit definierten Reaktionszeiten. NVAIE-Lifecycle-Updates, RMA-Abwicklung, Health-Monitoring.

Benchmarks vor der Beschaffung.

Im DELTA Test Center in Glinde validieren wir Ihre konkreten Workloads auf produktiver NVIDIA-Hardware. Aktuell stehen DGX B300, RTX PRO 6000 Server und ab Verfügbarkeit DGX Station (coming soon) zur Verfügung. Vera-Rubin-Slots werden ab Plattform-Verfügbarkeit (Q3 2026) freigegeben.

Der Vorteil: belastbare Performance-Daten für Ihre Beschaffungsentscheidung, Risiko-Reduktion vor sechs- bis siebenstelligen Investitionen, und Erfahrungs-Transfer zwischen DELTAs Engineering und Ihrem Forschungsteam.

DGX-Station-delta-test-centre_
Anwenderkreis

Wer Vera Rubin einsetzt.

DELTAs Vera-Rubin-Kunden kommen aus sechs typischen Forschungs- und Anwendungsfeldern. Workload-Profile und Beschaffungsbegleitung passen wir an die jeweilige Domäne an.

Helmholtz, Max-Planck, Fraunhofer

Großforschungseinrichtungen mit Frontier-Modell-Training, Foundation-Model-Forschung, Materialwissenschaft, Klimasimulation und Lebenswissenschaften. Typisch: NVL72 als Großgerät oder im Forschungsbau.

Universitäten

Mathematik, Informatik, Physik, Wirtschaftsinformatik. Geteilte Nutzung über mehrere Lehrstühle hinweg, MIG-Multi-Tenant-Setup. Typisch: DGX NVL8 als institutsweites Rechenzentrum mit Slurm-Scheduling.

Universitätskliniken

Medizinische Bildgebung, Diagnose-KI, Forschung an Foundation-Models für die Medizin. Konfidenz-Computing der 3. Generation für DSGVO-Compliance bei Patientendaten. Typisch: DGX NVL8 oder einzelnes NVL72-Rack.

Automotive

Autonomes Fahren, ADAS-Validierung, Simulation, Foundation-Model-Training für Fahrzeugsysteme. Typisch: NVL72 oder POD mit hohem Trainings-Anteil und Storage-STX.

Pharma und Life Sciences

Drug Discovery, Protein-Folding, klinische NLP-Modelle, Genomik. Confidential Computing für IP-Schutz. Typisch: NVL72 mit Forschungs-Datacenter-Anbindung.

Forschungsnahe Service Provider

GPU-Cloud-Anbieter, Inferenz-Provider, AI-Agentur-Plattformen. Typisch: Vera Rubin POD als Multi-Tenant-Basis. Für Million-Token-Kontext-Workloads ist NVL144 CPX (NVIDIA-Roadmap) vorgesehen.

Referenz

Mercury & Arion: Vom DGX-H100-Top-Tier zu Europas erstem GB200 NVL72.

DELTA ist nicht erst seit Vera Rubin in der SuperPOD‑Liga. Für DeepL haben wir bereits zwei produktive DGX‑SuperPOD‑Cluster integriert, und damit die zwei wichtigsten europäischen Referenzen, die NVIDIAs Frontier‑Strategie auf dem Kontinent prägen.

2023

Mercury

DGX H100 SuperPOD · Platz 41 TOP500 (11/2023)

Einer der ersten DGX-H100-SuperPODs in Europa. Von DELTA für DeepL integriert, in Betrieb genommen und über mehrere Jahre supportet. Mercury markierte den Schritt von Hopper-Forschung zur produktiven Foundation-Model-Infrastruktur in Europa.

Diese Erfahrung aus zwei SuperPOD‑Bring‑ups in Folge fließt direkt in unsere Vera‑Rubin‑Beratung und ‑Integration ein.

DELTA Computer

Ihr NVIDIA Elite Partner für Vera Rubin.

DELTA Computer Products GmbH ist seit 1985 am Markt. Als einer der wenigen NVIDIA Elite Partner in Deutschland mit produktiver SuperPOD-Erfahrung realisieren wir DGX- und HGX-Infrastrukturen für Universitäten, Helmholtz- und Max-Planck-Institute, Fraunhofer-Einrichtungen, Universitätskliniken sowie forschungsnahe Unternehmen im DACH-Raum.

Unser Test Center in Glinde steht für Vera-Rubin-Vorabevaluierungen ab Verfügbarkeit zur Verfügung. Bis dahin können Sie Ihre Workloads auf produktiven DGX-B300-Systemen validieren, bei identischem CUDA-Stack ist die Migration auf Vera Rubin später ohne Code-Änderung möglich.

nvidia-elite-partner-badge-rgb-for-screen
Direktkontakt
AdresseAm Alten Lokschuppen 4
D-21509 Glinde
Telefon+49 40 300672‑0
GeschäftszeitMo–Fr 07:30–18:30
GeschäftsführungHans-Peter Hellmann
NVIDIA Elite PartnerStar Performer Central EuropeISO 9001ISO 14001ISO 27001EcoVadis Gold
PDF
Hintergrundbericht

Vera Rubin Dossier von DELTA

Ausführliche technische und kommerzielle Aufbereitung der Vera-Rubin-Plattform: Architektur, Roadmap, Bezugsoptionen, Beschaffungs-Hinweise und Workload-Empfehlungen. Erstellt für Beschaffungsteams in Forschungseinrichtungen.

Dossier herunterladen
PDF · ca. 12 Seiten
 
FAQ

Häufig gestellte Fragen

Antworten auf die 19 Fragen, die unsere Kunden im DACH-Raum beim Vera-Rubin-Sondierungsgespräch am häufigsten stellen. Technische Begriffe sind im Glossar am Ende der Seite kurz erklärt.

Schnell-Erklärungen

Was ist Vera Rubin überhaupt?+

Vera Rubin ist NVIDIAs nächste Generation von KI-Hardware nach Blackwell. Vera bezeichnet die neue CPU, Rubin die neue GPU. Beide werden in einem Rack-Scale-System kombiniert (Vera Rubin NVL72) und sind ab Q3 2026 verfügbar. Die Plattform ist für Reasoning-Modelle, agentische KI und Million-Token-Kontextfenster ausgelegt. Alle technischen Begriffe finden Sie im Glossar am Ende der Seite.

Was bedeutet NVFP4?+

NVFP4 ist NVIDIAs 4-Bit-Floating-Point-Datenformat für Inferenz und Training. Es ermöglicht deutlich höheren Durchsatz als FP8 oder FP16 bei minimalem Genauigkeitsverlust. Die Hardware-Beschleunigung ist im Transformer Engine der Rubin GPU integriert. Mehr im Glossar.

Was heißt liquid-cooled konkret?+

100 % Liquid-Cooled bedeutet, dass alle Hauptwärmequellen (CPU, GPU, NVSwitch) direkt über kalte Wasserplatten gekühlt werden. Vera Rubin akzeptiert 45 °C Inlet-Wassertemperatur, was in DACH-Klimazonen praktisch ganzjähriges Free Cooling erlaubt. Eine Coolant Distribution Unit (CDU) trennt den primären RZ-Kreislauf vom Rack-internen Kreislauf. Restwärme über Luft beträgt nur etwa 5–10 %.

Wer ist DELTA und warum NVIDIA Elite Partner?+

DELTA Computer Products GmbH aus Glinde bei Hamburg ist seit 1985 am Markt und gehört zu den wenigen NVIDIA Elite Partnern in Deutschland mit produktiver SuperPOD-Erfahrung. Wir haben für DeepL Europas erste DGX-H100- und DGX-GB200-NVL72-SuperPODs (Mercury und Arion) integriert. Elite Partner ist die höchste Partnerstufe von NVIDIA, mit direktem Engineering-Zugang und Priorisierung bei Produkt-Allokationen.

Produkt und Architektur

Was ist die NVIDIA Vera Rubin Plattform?+

NVIDIAs Rack-Scale-AI-Architektur der nächsten Generation. Sie löst die Blackwell-Ultra-Generation ab und besteht aus sieben aufeinander abgestimmten Chips: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 Switch und Rubin CPX. Verfügbar ab Q3 2026 über mehr als 50 MGX-Partner. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.

NVL72 oder NVL144, was stimmt jetzt?+

Beide Begriffe bezeichnen dasselbe Rack. NVIDIAs offizielle Produktbezeichnung ist Vera Rubin NVL72. NVL144 zählt die 144 Reticle-Compute-Dies (zwei Dies pro Rubin-Package). Die Variante Vera Rubin NVL144 CPX behält die 144er-Notation bewusst, weil dort zusätzlich 144 dedizierte Rubin-CPX-GPUs verbaut sind. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.

Welche Performance-Vorteile bringt Vera Rubin gegenüber Blackwell?+

Laut NVIDIAs offiziellen Aussagen: bis zu 5× höhere NVFP4-Inferenz pro GPU, 3,5× mehr Trainingsleistung und 10× geringere Token-Kosten gegenüber Blackwell. Hinzu kommen Confidential Computing der 3. Generation und die NVLink-6-Verdopplung der Scale-Up-Bandbreite auf 3,6 TB/s pro GPU.

Verfügbarkeit und Beschaffung

Wann ist die Plattform tatsächlich verfügbar?+

NVIDIA hat Vera Rubin NVL72 für Q3 2026 angekündigt, mit Volumenauslieferungen über mehr als 50 MGX-Partner. Vera Rubin NVL144 CPX folgt Ende 2026. Vera Rubin Ultra im Kyber-Rack startet 2027. Für konkrete Liefertermine ist eine Anfrage über DELTA mit Ihrer Workload- und Power-Spezifikation der schnellste Weg. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.

Wie lang ist die typische Vorlaufzeit von Anfrage bis produktivem Cluster?+

Aus produktiven SuperPOD-Projekten (Mercury und Arion): 8 bis 14 Monate ab Vertragsunterschrift. Davon entfallen typischerweise 4 bis 7 Monate auf OEM-Fertigung und Auslieferung, der Rest auf Site-Vorbereitung (Cooling, Power-Upgrade, Cabling) und Bring-up. Bei Großgeräteanträgen kommt die Antrags- und Bewilligungsphase davor.

Können wir heute schon auf DGX B300 anfangen und später auf Vera Rubin migrieren?+

Ja, das ist der empfohlene Pfad für Forschungseinrichtungen, die jetzt produktiv arbeiten wollen. Der CUDA-Stack ist über alle Generationen identisch. Kein Code-Refactoring beim Wechsel von B300 auf Rubin. NVAIE-Lizenzen sind übertragbar mit Update auf die jeweilige Major-Version. Das Test Center in Glinde steht für Validierung Ihrer Workloads auf produktivem B300 zur Verfügung.

Power und Cooling

Was braucht ein Vera-Rubin-NVL72-Rack an Strom und Kühlung?+

Power: ~190 kW pro Rack, geliefert über 415-VAC-Drehstrom mit redundanter Einspeisung. Spürbar mehr als das heute oft verbaute 100-kW-pro-Rack-Niveau.

Cooling: 100 % Liquid-Cooled mit 45 °C Inlet-Wasser. Datacenter-freundlich, weil Free Cooling fast ganzjährig möglich ist. Sie brauchen einen Sekundärkreis mit ausreichender CDU-Kapazität (~210 kW thermisch je Rack als Reserve). Restwärme über Luft: ~5 bis 10 %, üblicher Hot-Aisle reicht.

Brauchen wir 800 VDC im Datacenter?+

Nein, für Vera Rubin NVL72 und Vera Rubin NVL144 CPX nicht. Beide Plattformen werden klassisch über 415-VAC-Drehstrom versorgt. 800 VDC wird erst für Vera Rubin Ultra im Kyber-Rack 2027 Pflicht. Bis dahin ist 800 VDC ein Datacenter-Modernisierungsthema, das Sie strategisch im Auge behalten, aber 2026 nicht aktiv adressieren müssen. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.

Wir haben heute nur 100 kW pro Rack, was tun?+

Drei Wege: Erstens, Power-Upgrade auf 200 kW pro Rack mit Ihrem RZ-Betreiber abstimmen – meist ohne baulichen Eingriff über stärkere PDUs machbar. Zweitens, alternative Konfiguration als DGX NVL8-Server, der mit 30 bis 50 kW pro Rack auskommt. Drittens, Co-Location bei einem AI-Datacenter-Anbieter, der bereits 200+ kW pro Rack stellt. DELTA berät bei allen drei Wegen.

Konfigurationsentscheidung

Welche Variante passt zu uns: DGX NVL8, NVL72 oder NVL144 CPX?+

DGX Rubin NVL8 für 8-GPU-Workloads, klassische Server-Klasse, Bestands-RZ mit 30 bis 50 kW pro Rack. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.

Vera Rubin NVL72 für allgemeine Forschung, Training mittlerer bis großer Modelle, Mixed Workloads, kohärente NVLink-Domain über 72 GPUs.

Vera Rubin NVL144 CPX, wenn Ihre Inferenz dominanter Workload ist und Sie mit Million-Token-Kontextfenstern arbeiten – Code-Agenten, Document-AI, Video-Generation, Deep Research. Hier liefert CPX 7,5× mehr Performance pro Rack als GB300 NVL72.

Faustregel: Wenn mehr als 60 % Ihrer Token aus Prefill-Phasen kommen, lohnt CPX.

Können wir später ein Standard-NVL72 zu einem NVL144 CPX upgraden?+

Ja. NVIDIA bietet dedizierte CPX-Compute-Trays für Bestandskunden mit VR-NVL72-Racks an. Alternativ gibt es das Vera Rubin CPX Dual Rack, ein zweites Rack neben dem NVL72, gefüllt mit 144 Rubin-CPX-GPUs, verbunden über externes PCIe. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.

Was unterscheidet HGX-Server von Rack-Scale-Systemen wirklich?+

Die NVLink-Domain: ein HGX-Server hat 8 GPUs in einer NVLink-Domain, ein NVL72-Rack hat 72 GPUs in einer einzigen kohärenten Domain. Bei NVL72 können Sie ein 1-Billion-Parameter-Modell als ein einziger Memory-Pool ansprechen, ohne explizites Sharding. Sobald Sie über die NVLink-Domain hinausgehen, brauchen Sie Scale-Out-Networking (ConnectX-9 plus InfiniBand oder Ethernet) und müssen Ihr Modell explizit sharden.

Beschaffung und DELTA-Service

Vera Rubin als Großgeräte-Beschaffung, wie läuft das?+

Ja. Vera Rubin lässt sich im Rahmen von Großgeräteanträgen nach Art. 91b GG über die DFG, oder als Forschungsbau, beantragen. Wichtig: Der Antrag braucht eine Verfügbarkeits- und Liefertermin-Begründung. DELTA stellt für laufende Anträge eine entsprechende Lieferbestätigungs-Zusage. Auch NVAIE-Lizenzen, Liquid-Cooling-Infrastruktur, Cabling und Service-Pakete sind beantragsfähig.

Welcher Support kommt mit dem Rack?+

Standard ist eine 3-Jahres-Hardware-Garantie über die OEM-Kette (Supermicro, Gigabyte, MSI, Quanta, ASUS, je nach Konfiguration). Optional bietet DELTA Premium Support mit definierten Reaktionszeiten, On-Site-Service und RMA-Abwicklung in Deutschland. NVAIE-Software-Support läuft separat über die NVIDIA-Lizenz.

Macht DELTA auch Cluster-Betrieb oder Managed Services?+

Wir betreiben keine eigenen Cluster für Sie – das gehört in Ihre Hoheit, weil Forschungsdaten unter DSGVO und Hochschul-IT-Richtlinien stehen. Aber wir unterstützen bei Setup, Konfiguration, Validierungsläufen und Updates. Auf Wunsch begleiten wir auch die Schulung Ihres RZ-Teams im Umgang mit NVIDIA Mission Control, DGX OS und Slurm oder Kubernetes.

 
Glossar

Begriffe in 30 Sekunden

18 Schlüsselbegriffe rund um Vera Rubin, von Olympus-Kernen bis 800 VDC.

Vera CPU
NVIDIAs zweite Generation Arm-basierter Server-CPUs. 88 proprietäre Olympus-Kerne (Armv9.2) mit SMT2, bis zu 176 parallele Threads.
Rubin GPU
Erste GPU der Rubin-Architektur. Zwei Compute-Tiles auf TSMC 3 nm, 288 GB HBM4, 50 PFLOPS NVFP4-Inferenz pro GPU.
Olympus-Kerne
NVIDIAs eigene Armv9.2-Kerne in der Vera CPU. Ablösung der Neoverse-V2-Kerne aus der Grace-Generation.
NVLink 6
Sechste Generation des NVLink-Interconnects. 3,6 TB/s pro GPU bidirektional, doppelte Bandbreite gegenüber NVLink 5 in Blackwell.
NVLink-C2C
Chip-to-Chip-Variante von NVLink für die kohärente Anbindung von Vera CPU und Rubin GPU. 1,8 TB/s, doppelt so schnell wie Grace-Hopper-C2C.
HBM4
High-Bandwidth-Memory der vierten Generation. Stacked DRAM auf-Package mit deutlich höherer Bandbreite als HBM3e.
NVFP4
NVIDIAs 4-Bit-Floating-Point-Format für Inferenz und Training mit minimalem Genauigkeitsverlust gegenüber FP8. Hardware-beschleunigt im Transformer Engine.
MGX
NVIDIAs modulare Server-Architektur. Mehr als 80 Ökosystempartner liefern MGX-konforme Designs für Vera Rubin.
Oberon-Rack
Rack-Architektur für GB200, GB300 und Vera Rubin NVL72. 100 % Liquid-Cooled, 415-VAC-Drehstrom, ~190 kW pro Rack.
Kyber-Rack
Nachfolger zu Oberon. Wird ab 2027 mit Vera Rubin Ultra ausgeliefert. 576 Rubin Ultra GPUs pro Rack, 800 VDC, bis zu 600 kW.
ConnectX-9
Achte Generation der Mellanox-Server-NICs. SuperNIC mit 800 Gb/s pro Port, PCIe 6.0 x16. Endpunkt für Quantum-X800 InfiniBand und Spectrum-X Ethernet.
BlueField-4
Vierte Generation der Mellanox-DPU. Übernimmt Storage, Sicherheit, Telemetrie und Netzwerk-Orchestrierung von der Host-CPU. Integriert eine 64-Core-Grace-CPU.
Astra-Architektur
NVIDIAs Bezeichnung für die Architektur, in der BlueField-4 die Front-End- und Back-End-Netzwerke zentral verwaltet.
Spectrum-6
Sechste Generation der Mellanox-Ethernet-Switch-Chips. CPO-Variante (Co-Packaged Optics) reduziert Strombedarf für Long-Haul-Verbindungen.
Rubin CPX
Spezialisierter GPU-Beschleuniger für die Prefill-Phase langer LLM-Kontextfenster. 30 PFLOPS NVFP4, GDDR7 statt HBM, 3× Attention-Acceleration vs. GB300 NVL72 (NVIDIA-Roadmap, Verfügbarkeit nach Freigabe).
Confidential Computing
Hardware-Trusted-Execution-Environment für GPU- und CPU-Workloads. In der Vera-Rubin-Plattform 3. Generation, rack-skaliert mit Attestation-Services.
Disaggregated Inference
Architekturansatz, bei dem Prefill und Decode auf spezialisierter Hardware laufen. Vera Rubin NVL144 CPX ist die erste Plattform mit nativer Hardware-Disaggregation für Inferenz.
800 VDC
Hochspannungs-Gleichstrom-Architektur für Megawatt-Racks. Reduziert Konvertierungsverluste, Kupferbedarf und Wartungsaufwand. Pflicht für Vera Rubin Ultra ab 2027.
Quellen und Hinweise+

Stand 03/2026: NVIDIA hat auf der GTC 2026 die Disaggregated-Inference-Strategie geschärft. Verfügbarkeit, Zeitplan und finale Hardware-Komponenten für die Decode-Phase werden von NVIDIA finalisiert.

NVIDIA-Primärquellen:

Konferenz- und Industrie-Quellen:

Hinweise zur Aktualität:

  • Stand der gesamten Seite: Mai 2026
  • Werte mit der Kennzeichnung „projiziert“ sind NVIDIA-Roadmap-Aussagen und können sich bis zum Launch ändern.
  • Performance-Vergleiche gegenüber Blackwell sind NVIDIAs eigene Aussagen und unterliegen workload-spezifischer Variation.
  • Liefertermine, Preise und Konfigurations-Details sind über DELTA Computer verbindlich abzuklären.

Bereit für Vera Rubin? Sprechen Sie früh mit DELTA.

Ein Vera-Rubin-Rack kommt nicht in 5 Werktagen aus dem Karton. Workload-Profil, Site-Anforderungen, Förderpfade und der richtige Zeitpunkt für eine Beschaffung sind Themen für ein 30-Minuten-Gespräch. Oder testen Sie heute schon auf einem produktiven DGX B300 in unserem Test Center in Glinde – identischer CUDA-Stack, portierbar zu Vera Rubin.