NVIDIA Vera Rubin

NVIDIA Vera Rubin™

Die Plattform für Frontier-Inferenz und agentische KI.

Bis zu 3,6 ExaFLOPS NVFP4-Inferenz, 20,7 TB HBM4 und NVLink 6 mit 260 TB/s Aggregat-Bandbreite. Ein 100 % flüssigkeitsgekühltes Rack für die nächste Generation von Reasoning-Modellen, Agenten-Workflows und Million-Token-Kontextfenstern.

Beratung anfragen

nvidia-elite-partner-badge-rgb-for-screen

⊙Q3 2026ab Plattform-Verfügbarkeit lieferbar

⬢Drei SkalierungsstufenDGX NVL8, NVL72, POD

⎔Identischer CUDA-Stackportierbar von Spark bis Rubin

⏣100 % Liquid-Cooledclosed-loop, ab Werk integriert

Plattform

Warum Vera Rubin?

NVIDIA Vera Rubin ist die nächste Rack-Scale-Generation nach Grace Blackwell. Sie kombiniert die Vera CPU mit 88 Olympus-Arm-Kernen und 1,8 TB/s NVLink-C2C-Bandbreite, die Rubin GPU mit HBM4-Speicher und nativer NVFP4-Beschleunigung sowie Confidential Computing der 3. Generation, das eine vertrauliche Ausführungsumgebung über das gesamte Rack hinweg etabliert. Sechs Gründe, warum Sie für Ihre nächste KI-Infrastruktur Vera Rubin in Betracht ziehen sollten.

⬢

5× mehr Inferenz

Bis zu 5× höhere NVFP4-Inferenz pro GPU gegenüber Blackwell. Dazu 3,5× mehr Trainingsleistung und 10× geringere Token-Kosten für Reasoning-Modelle.

⊞

Million-Token-Kontext

Die Plattform ist nativ auf Million-Token-Kontextfenster ausgelegt. NVIDIAs Disaggregated-Inference-Architektur trennt Prefill und Decode. Der spezialisierte Prefill-Beschleuniger Rubin CPX steht auf der NVIDIA-Roadmap.

⌖

Confidential Computing

3. Generation Confidential Computing schützt CPU, GPU und NVLink in einer einheitlichen vertrauensvollen Ausführungsumgebung – mit Attestierungsdiensten für Compliance-Nachweise.

⏣

100 % Liquid-Cooled

45 °C Inlet-Wassertemperatur ermöglicht ganzjährig Free Cooling in DACH-Datacentern. Reduzierte Kühlleistung und niedrigere PUE-Werte gegenüber luftgekühlten Bestandsanlagen.

⎔

Portierbarer CUDA-Stack

Identischer CUDA-Stack über DGX Spark, Station, B300, GB300 und Vera Rubin. Code, der auf einer DGX Spark prototypisiert wird, läuft unverändert auf einem Vera-Rubin-Rack.

★

DELTA als End-to-End-Partner

Vom Site Survey über Beschaffungsbegleitung, P2P-Mapping, Liquid-Cooling-Anbindung bis zum mehrjährigen Hardware-Support – alles aus einer Hand, vom NVIDIA Elite Partner.

Performance

Frontier-Inferenz in Zahlen.

Sechs Kennzahlen, die den Sprung von Blackwell auf Vera Rubin definieren. Alle Werte beziehen sich auf das NVL72-Rack.

Inferenz-Leistung NVFP4

3,6

ExaFLOPS

pro NVL72-Rack, das Dreieinhalbfache von GB300 NVL72 und in der Größenordnung eines kompletten H100-DGX-SuperPOD aus 2023.

20,7 TB

HBM4 je Rack

3,6 TB/s

NVLink 6 pro GPU

Olympus-Cores in Vera

800 Gb/s

ConnectX-9 SuperNIC

45 °C

Inlet, Liquid-Cooled

~190 kW

je NVL72-Rack

Architektur

Sieben Chips. Eine AI-Fabrik.

Vera Rubin ist die erste NVIDIA-Plattform, die sieben aufeinander abgestimmte Chip-Klassen in einem Rack-Scale-System vereint: zwei Compute-Chips (Vera CPU, Rubin GPU), zwei Switch-Chips (NVLink 6, Spectrum 6), zwei Networking-Chips (ConnectX‑9, BlueField‑4) und einen spezialisierten Inferenz-Beschleuniger (Rubin CPX, NVIDIA-Roadmap). Jeder dieser Chips ist co-designed für die anderen sechs.

Compute · Host

Vera CPU

88 proprietäre Olympus-Kerne (Armv9.2) mit SMT2 für bis zu 176 parallele Threads. 1,8 TB/s NVLink-C2C-Bandbreite zur Rubin GPU, doppelt so hoch wie Grace.

Compute · Beschleunigung

Rubin GPU

Bis zu 50 PFLOPS NVFP4-Inferenz pro GPU. Zwei Compute-Tiles auf TSMC 3 nm mit 288 GB HBM4-Speicher. NVLink 6 mit 3,6 TB/s pro GPU.

Switch · Scale-Up

NVLink 6

Sechste NVLink-Generation. Verdoppelt Blackwells Bandbreite. 9 NVSwitch-Trays bilden im NVL72 eine kohärente Domain über 72 Rubin GPUs – 260 TB/s aggregiert.

Networking · Scale-Out

ConnectX‑9

SuperNIC mit 800 Gb/s pro Port und PCIe 6.0 x16. NIC-Direct-Anbindung an die Rubin GPU ohne CPU-Umweg. Endpunkt für Quantum-X800 InfiniBand und Spectrum-X Ethernet.

Networking · Orchestrierung

BlueField‑4 DPU

Übernimmt Storage, Sicherheit, Telemetrie und Netzwerk-Orchestrierung von der Host-CPU. Verwaltet 8 ConnectX-9-NICs in der Astra-Architektur. 64-Core Grace-CPU integriert.

Switch · Ethernet

Spectrum‑6

Sechste Spectrum-Generation für Spectrum-X Ethernet. CPO-Variante (Co-Packaged Optics) reduziert Strombedarf für Long-Haul-Verbindungen zwischen Racks und Sites.

Compute · Prefill · Roadmap

Rubin CPX

Spezialisierter Prefill-Beschleuniger für Million-Token-Kontextfenster. 30 PFLOPS NVFP4 mit GDDR7-Speicher. Im VR NVL144 CPX kombiniert mit 144 Rubin-HBM-GPUs. Verfügbarkeit nach NVIDIA-Freigabe.

⬡⬢⬡⬢⬡⬢⬡

Sieben Chips

Co-Design.

Sieben Chip-Klassen, in einem Sprung zur Reife gebracht. Jeder Chip ist auf die anderen sechs hin entwickelt, was eine kohärente Plattform statt einer Toolbox ergibt.

Hinweis zum Namensschema

NVL72 vs. NVL144

NVIDIA hat die Plattform 2025 zunächst als NVL144 angekündigt. Gezählt wurden dabei die 144 Compute-Dies (zwei Dies pro Rubin-Package × 72 Packages). Seit der CES 2026 zählt NVIDIA wieder ganze Packages. Das offizielle Produkt heißt daher Vera Rubin NVL72. Die Variante Vera Rubin NVL144 CPX (NVIDIA-Roadmap) würde die 144er-Notation behalten, weil dort zusätzlich 144 dedizierte Rubin-CPX-GPUs vorgesehen sind. Verfügbarkeit und finale Konfiguration werden von NVIDIA festgelegt.

Technische Daten

Spezifikationen im Direktvergleich

Vera Rubin NVL72, Vera Rubin NVL144 CPX und die Vorgängergeneration GB300 NVL72 im direkten Vergleich. Alle Werte basieren auf NVIDIAs öffentlichen Angaben. Die Spalte VR NVL144 CPX zeigt NVIDIAs Roadmap-Stand. Finale Verfügbarkeit nach NVIDIA-Freigabe.

	HEUTE	2026
Eigenschaft	GB300 NVL72	VR NVL72	VR NVL144 CPX
GPU-Architektur	Blackwell Ultra	Rubin	Rubin + Rubin CPX
GPU-Anzahl	72 (B300)	72 Rubin Packages	144 Rubin + 144 CPX
CPU	36× Grace	36× Vera (88 Olympus-Cores)	36× Vera
HBM-Speicher	~21 TB HBM3e	20,7 TB HBM4	~33 TB HBM4 + GDDR7
Inferenz NVFP4	1,1 ExaFLOPS	3,6 ExaFLOPS	8 ExaFLOPS
Training FP8	0,72 ExaFLOPS	1,2 ExaFLOPS	1,2 ExaFLOPS
NVLink-Bandbreite/GPU	1,8 TB/s (NVLink 5)	3,6 TB/s (NVLink 6)	3,6 TB/s (NVLink 6)
Scale-Out je SuperNIC	800 Gb/s (ConnectX-8)	800 Gb/s (ConnectX-9)	800 Gb/s (ConnectX-9)
Compute Trays	18	18	18 (12 GPUs/Tray)
NVSwitch Trays	9 (NVSwitch 5)	9 (NVSwitch 6)	9 (NVSwitch 6)
Power je Rack	~120 kW	~190 kW	~370 kW
Power-Distribution	415 VAC	415 VAC	415 VAC
Kühlung	Liquid-Cooled	100 % Liquid (45 °C Inlet)	100 % Liquid (45 °C Inlet)
DPU	BlueField-3	BlueField-4 (optional)	BlueField-4
Confidential Computing	2. Generation (GPU)	3. Generation (rack-skaliert)	3. Generation (rack-skaliert)
Verfügbarkeit	Aktuell lieferbar	Q3 2026	Ende 2026

Stand: Mai 2026

Anatomie des Racks

Wie ein Vera-Rubin-Rack aufgebaut ist.

Das MGX-Chassis teilt sich in drei modulare Tray-Klassen. Drei architektonische Änderungen gegenüber GB300 sind besonders relevant für die Datacenter-Planung, und damit für die Vorlaufzeit Ihrer Beschaffung.

Compute Tray

4× Rubin GPU + 2× Vera CPU

18 Compute Trays bilden das NVL72-Rack

Pro Tray sind vier Rubin-GPU-Packages und zwei Vera-CPUs auf einer flachen Midplane verbaut. Drei Detailänderungen gegenüber GB300:

NIC-Direct via ConnectX-9 – Rubin spricht den 800-Gb/s SuperNIC ohne Umweg über die CPU an
Lokales NVMe wandert auf das Orchid-Modul, von ConnectX-9 verwaltet (zuvor BlueField-3)
BlueField-4 DPU dirigiert Front-End und 8 Back-End-NICs zentral – Astra-Architektur

NVSwitch 6 Tray

9 Switch Trays, 3,6 TB/s pro GPU

NVSwitch 6 als Scale-Up-Fabric

Neun NVSwitch-6-Trays binden alle 72 Rubin-Packages zu einem kohärenten Scale-Up-Pool. Verdoppelte Bandbreite gegenüber GB300 NVL72:

NVLink 6: 3,6 TB/s pro GPU bidirektional
Hot-swappable – Switch-Tausch ohne Rack-Shutdown
Inline-Telemetrie für Health-Checks zwischen Trainingsläufen
RAS-Features der 2. Generation: einzelne GPU-Prüfung ohne Cluster-Drop

STX Storage Tray

BlueField‑4 STX Storage

Dedizierte Storage-Trays für Vera Rubin POD

Für SuperPOD-Konfigurationen führt NVIDIA dedizierte BlueField-4-STX-Racks ein. Sie entlasten die Compute-Trays von Storage-Last und KV-Cache-Offloading:

Inference Context Storage mit Multi-Vendor-Support
NIXL GPU Direct Storage Libraries
Optimiertes KV-Cache-Offloading für Million-Token-Workflows
800 Gb/s Frontend über BlueField-4 mit 64‑Core Grace

Power-Architektur

415 VAC vs. 800 VDC

Vera Rubin NVL72 läuft heute über die etablierte 415-VAC-Drehstrom-Versorgung in jedem europäischen Datacenter. Die Folgegeneration Vera Rubin Ultra im Kyber-Rack wechselt 2027 auf 800 VDC native. Ein architektonischer Bruch, der die heutige Power-Pipeline halbiert.

Status quo, heute

415 VAC

Drehstrom-Versorgung, klassische Datacenter-Praxis

So fließt der Strom

Mittelspannung (10–30 kV) vom Energieversorger
Trafo zu 415-VAC-Drehstrom ins Datacenter
USV / PDU verteilt an die Racks
Rack-PSUs wandeln auf 54 VDC
VRMs am Compute-Tray wandeln auf 12 VDC, finale Stage auf 0,7–1,2 V Core-Spannung

Vorteile

In jedem Bestandsdatacenter verfügbar
Etabliertes Personal-Skillset
Genehmigungs- und Brandschutz-Standards bekannt
Komponenten-Ökosystem ausgereift
Power-Distribution-Standards (DIN, IEC) seit Jahrzehnten etabliert
Kompatibel mit USV-Standardlösungen ohne DC-Umrüstung

Nachteile

Bis zu 200 kg Kupfer-Busbar pro 1‑MW‑Rack
4–5 Wandlungsstufen, Verluste durch I²R
Bei 1 MW pro Rack: bis zu 64 HE Power-Shelves
Skin-Effekt und Blindleistungs-Management
Wirkungsgradverlust ~5 bis 7 % kumuliert über alle Wandlungsstufen
Skalierung über ~150 kW pro Rack erfordert baulichen Eingriff

Roadmap, ab 2027

800 VDC native

Direkter Hochspannungs-DC-Bus

So fließt der Strom

Mittelspannung (10–30 kV) vom Energieversorger
Solid-State-Transformer zu 800 VDC direkt
Hochspannungs-DC-Busway zu jedem Rack
Eine LLC-Resonanz-Stage 800 V zu 12 VDC
VRM zur Core-Spannung

Vorteile

+157 % Leistung pro Leiterquerschnitt
−45 % Kupferbedarf
Bis zu 5 % bessere End-to-End-Effizienz
Bis zu −70 % Wartungskosten
Skaliert auf > 1 MW pro Rack
Eliminiert AC-spezifische Verluste

Voraussetzungen

Datacenter-Umbau erforderlich
Nur qualifiziertes Personal am Equipment
Neue SiC- und GaN-Komponenten
Vertiv 800-VDC-Portfolio Q3 2026
OCP-Standards in Erarbeitung
Roll-out 2027

⌁

Was das für Ihre Beschaffung heißt

Beim heutigen Vera-Rubin-NVL72 ist die Power-Frage entspannt: 415-VAC-Drehstrom mit ~190 kW pro Rack lässt sich in jedem deutschen Universitäts-Rechenzentrum darstellen, vergleichbar zur heutigen GB300-NVL72-Planung. DELTA unterstützt bei Site-Survey, P2P-Mapping, Verkabelung und Liquid-Cooling-Anbindung.

Der Schritt zu Vera Rubin Ultra im Kyber-Rack 2027 ist ein anderer: Hier reden wir über DC-Hochspannungs-Versorgung, Solid-State-Transformer am Datacenter-Eingang und 600-kW-Racks. Das ist 2026 noch kein Universitätsthema. Wer aber Großgeräte-Beschaffungen mit Laufzeit bis 2028 oder darüber hinaus stellt, sollte die 800-VDC-Roadmap kennen.

Konfigurationen

Vera Rubin in drei Skalierungsstufen.

Vom DGX-Server für das institutsweite Lab bis zum SuperPOD-Cluster für Forschungsbau-Projekte. Eine Architektur, ein CUDA-Stack, drei Hardware-Klassen. Alle drei Konfigurationen sind 2026 bestellbar.

⬡ Server-Klasse

DGX Rubin NVL8

8 Rubin GPUs · klassisches Server-Chassis

Der Einstieg in die Vera-Rubin-Generation. 8 Rubin GPUs auf einem DGX-Baseboard in einem 19‑Zoll-Server. Eingebaut wie klassische HGX-Systeme.

8 Rubin GPUs, etwa 2,3 TB HBM4
NVLink-Domain auf 8 GPUs begrenzt
~30–50 kW pro Rack
Liquid-Cooling Pflicht (kein Air-SKU)
Bestands-RZ, klassische Beschaffung

Konfiguration & Preis →

Coming SoonVerfügbar Q3 2026

⬢ Rack-as-System

Vera Rubin NVL72

72 Rubin GPUs · 36 Vera CPUs

Das vollständig vorintegrierte Rack als ein einziges System. 72 Rubin GPUs bilden eine kohärente NVLink-Domain, programmierbar wie eine GPU.

3,6 ExaFLOPS NVFP4 / 1,2 ExaFLOPS FP8
20,7 TB HBM4 + 54 TB LPDDR5X
18 Compute-Trays, 9 NVSwitch-Trays
~190 kW · 100 % Liquid-Cooled
Großgerät / Forschungsbau

NVIDIA NVL72-Plattform →

⬣ Multi-Rack-Cluster

Vera Rubin POD

N× NVL72 · SuperPOD-Scale

Mehrere NVL72-Racks vernetzt über Quantum-X800 InfiniBand oder Spectrum-X Ethernet. DELTAs Domäne, aus produktiver SuperPOD-Erfahrung mit Mercury und Arion.

Skalierbar auf hunderte GPUs
800 Gb/s ConnectX-9 Scale-Out
BlueField-4 STX Storage optional
NVIDIA Mission Control Cluster-Mgmt
Forschungsbau / Industrieprojekt

DELTA SuperPOD-Übersicht →

△

Software dazu

Autonome KI-Agenten auf Vera Rubin.

Das NVIDIA Agent Toolkit, OpenShell und die Nemotron-Modelle laufen on-premise direkt auf Vera-Rubin-Hardware. DELTA berät zu Software-Stack, Modellauswahl und Sizing.

KI-Agenten on-premise NVIDIA Agent Toolkit

Rubin CPX Deep-DiveNVIDIA‑Roadmap

Wenn Inferenz nicht mehr in einen GPU-Typ passt

Moderne LLM-Inferenz hat zwei sehr unterschiedliche Phasen: Prefill (Million-Token-Kontext einlesen, parallelisierbar, durchsatz-gebunden) und Decode (Token-für-Token-Generation, latenz-gebunden, speicherbandbreiten-hungrig). Beide auf der gleichen GPU laufen zu lassen ist ineffizient. NVIDIAs Antwort: Rubin CPX, eine GPU, die ausschließlich für die Prefill-Phase optimiert ist. Auf der NVIDIA-Roadmap, Verfügbarkeit und finale Specs werden von NVIDIA finalisiert.

01 · Architektur · Coming Soon

Was Rubin CPX anders macht

30 PFLOPS NVFP4 pro CPX-GPU
GDDR7 statt HBM – günstiger, hoch-bandbreitig genug für Prefill
3× Attention-Acceleration vs. GB300 NVL72
Kein NVLink – PCIe-Anbindung, da Decode auf den Rubin-HBM-GPUs läuft
NVL144‑CPX‑Tray: 4× Rubin SXM (HBM) + 8× Rubin CPX (GDDR7)

02 · Anwendung

Wann es sich lohnt

Code-Agenten mit langlaufenden Repository-Kontexten
Video-Generation mit Multi-Minute-Prompt-Verläufen
Massive-Context Reasoning – 200K-Token-Workflows oder größer
Deep Research und Document Q&A über ganze Bibliotheken
Workloads, bei denen > 70 % der Latenz aus dem Prefill kommen

03 · Wirtschaftlichkeit

Was NVIDIA verspricht

ExaFLOPS NVFP4 pro Rack

7,5×

Performance vs. GB300 NVL72

100 TB

Fast Memory pro Rack

Werte aus NVIDIAs Vera-Rubin-Pressematerial 09/2025; NVIDIA hat die Disaggregated-Inference-Strategie auf der GTC 2026 geschärft, finale ROI-Aussagen folgen mit der Roadmap-Freigabe. Die ROI-Aussagen von NVIDIA sind hochgradig workload-abhängig und gelten vor allem für Inferenz-Provider mit hohem Auslastungsgrad und Million-Token-Kontextfenstern.

Skalierungspfad

Vom Schreibtisch zur AI Factory

Vera Rubin ist das institutsweite Endspiel von DELTAs NVIDIA-Portfolio. Code, der heute auf einer DGX Spark prototypisiert wird, läuft unverändert auf einem Vera-Rubin-NVL72-Rack, identischer CUDA-Stack, durchgängiges NVAIE-Lifecycle-Modell.

DGX Spark

1× GB10
128 GB unified
1 PFLOP FP4
Desktop, ~120 W

Prototyping, Edge AI

DGX Station

1× GB300 Desktop
748 GB coherent
20 PFLOPS FP4
Deskside, 1,6 kW

Forschung, Lehre, Lab

DGX B300

8× Blackwell Ultra
2,3 TB HBM3e
144 PFLOPS FP4
10U Rack, ~15 kW

DGX Server, AI Factory

GB300 NVL72

72× GB300
~21 TB HBM3e
1,1 EFLOPS FP4
Rack, ~120 kW

SuperPOD, AI Factory

Vera Rubin NVL72

72× Rubin + 36× Vera
20,7 TB HBM4
3,6 EFLOPS NVFP4
Rack, ~190 kW

Frontier-Inferenz, Reasoning

…

2027

Vera Rubin Ultra

Kyber-Rack, 800 VDC

Ein Versprechen

Identischer CUDA-Stack über alle Stufen.

Was auf der DGX Spark prototypisiert wird, läuft auf einer DGX Station mit 7 MIG-Instanzen, skaliert über DGX-B300-Server zum GB300-NVL72-Rack und am Ende des Lebenszyklus auf Vera-Rubin-Infrastruktur. Kein Re-Engineering, keine Container-Migration, keine Workload-Umschreibung. Das ist der mit Abstand stärkste Grund, eine institutsweite KI-Strategie auf einer einzigen NVIDIA-Generation aufzubauen.

DELTA Service

Every step of the way

Ein Vera-Rubin-NVL72-Rack ist nicht etwas, das man bestellt und am nächsten Mittwoch auspackt. Zwischen Beauftragung und produktivem Cluster liegen 8 bis 14 Monate Vorlauf. DELTA begleitet jede dieser Phasen, vom ersten Site-Survey bis zum 24/7-Support nach dem Go-Live.

⌖

Site Survey

Begehung Ihres Datacenter oder Lab. Aufnahme von Stellfläche, Bodenlast (~1,5 t/m²), Power-Anschluss, Klima- und Brandschutz-Status, Netzwerk-Topologie.

⌁

Power & Cooling

Auslegung 415-VAC-Versorgung (~190 kW pro NVL72-Rack). CDU-Dimensionierung für 45 °C Inlet-Wasser. Abstimmung mit Facility-Team und Elektroplaner.

⬡

P2P Mapping

Point-to-Point-Plan für Compute-Trays, NVSwitch-Trays, Storage und Spine-Switches. Kabel-Längen, OSFP-Transceiver-Auswahl, Patch-Panel-Layout.

⊞

Cabling

Konfektionierung und Verlegung von ConnectX-9-OSFP-Verbindungen, Quantum-X800 InfiniBand oder Spectrum-X Ethernet. Strukturierte Beschriftung, durchgängige Doku.

⏣

Liquid Cooling

Anschluss der CDU an Ihren Sekundärkreis. Druck- und Dichtigkeitstest, Wasseraufbereitung, Inhibitor-Dosierung, Durchflussregelung pro Rack.

⚙

Installation

DELTA-Techniker integrieren das Rack vor Ort. NVIDIA Mission Control, DGX OS, Slurm oder Kubernetes nach Ihren Vorgaben. Burn-In, Validierungs-Benchmark, Übergabe-Doku.

◉

Operate & Support

Drei Jahre Hardware-Garantie über die OEM-Kette plus optionaler DELTA-Support-Vertrag mit definierten Reaktionszeiten. NVAIE-Lifecycle-Updates, RMA-Abwicklung, Health-Monitoring.

Benchmarks vor der Beschaffung.

Im DELTA Test Center in Glinde validieren wir Ihre konkreten Workloads auf produktiver NVIDIA-Hardware. Aktuell stehen DGX B300, RTX PRO 6000 Server und ab Verfügbarkeit DGX Station (coming soon) zur Verfügung. Vera-Rubin-Slots werden ab Plattform-Verfügbarkeit (Q3 2026) freigegeben.

Der Vorteil: belastbare Performance-Daten für Ihre Beschaffungsentscheidung, Risiko-Reduktion vor sechs- bis siebenstelligen Investitionen, und Erfahrungs-Transfer zwischen DELTAs Engineering und Ihrem Forschungsteam.

Anwenderkreis

Wer Vera Rubin einsetzt.

DELTAs Vera-Rubin-Kunden kommen aus sechs typischen Forschungs- und Anwendungsfeldern. Workload-Profile und Beschaffungsbegleitung passen wir an die jeweilige Domäne an.

Helmholtz, Max-Planck, Fraunhofer

Großforschungseinrichtungen mit Frontier-Modell-Training, Foundation-Model-Forschung, Materialwissenschaft, Klimasimulation und Lebenswissenschaften. Typisch: NVL72 als Großgerät oder im Forschungsbau.

Universitäten

Mathematik, Informatik, Physik, Wirtschaftsinformatik. Geteilte Nutzung über mehrere Lehrstühle hinweg, MIG-Multi-Tenant-Setup. Typisch: DGX NVL8 als institutsweites Rechenzentrum mit Slurm-Scheduling.

Universitätskliniken

Medizinische Bildgebung, Diagnose-KI, Forschung an Foundation-Models für die Medizin. Konfidenz-Computing der 3. Generation für DSGVO-Compliance bei Patientendaten. Typisch: DGX NVL8 oder einzelnes NVL72-Rack.

Automotive

Autonomes Fahren, ADAS-Validierung, Simulation, Foundation-Model-Training für Fahrzeugsysteme. Typisch: NVL72 oder POD mit hohem Trainings-Anteil und Storage-STX.

Pharma und Life Sciences

Drug Discovery, Protein-Folding, klinische NLP-Modelle, Genomik. Confidential Computing für IP-Schutz. Typisch: NVL72 mit Forschungs-Datacenter-Anbindung.

Forschungsnahe Service Provider

GPU-Cloud-Anbieter, Inferenz-Provider, AI-Agentur-Plattformen. Typisch: Vera Rubin POD als Multi-Tenant-Basis. Für Million-Token-Kontext-Workloads ist NVL144 CPX (NVIDIA-Roadmap) vorgesehen.

Referenz

Mercury & Arion: Vom DGX-H100-Top-Tier zu Europas erstem GB200 NVL72.

DELTA ist nicht erst seit Vera Rubin in der SuperPOD‑Liga. Für DeepL haben wir bereits zwei produktive DGX‑SuperPOD‑Cluster integriert, und damit die zwei wichtigsten europäischen Referenzen, die NVIDIAs Frontier‑Strategie auf dem Kontinent prägen.

2023

Mercury

DGX H100 SuperPOD · Platz 41 TOP500 (11/2023)

Einer der ersten DGX-H100-SuperPODs in Europa. Von DELTA für DeepL integriert, in Betrieb genommen und über mehrere Jahre supportet. Mercury markierte den Schritt von Hopper-Forschung zur produktiven Foundation-Model-Infrastruktur in Europa.

2025

Arion

DGX GB200 NVL72 SuperPOD · Erster europäischer GB200 NVL72

Europas erster DGX GB200 NVL72 SuperPOD, ebenfalls für DeepL und ebenfalls von DELTA integriert. Mit Arion war DELTA der erste deutsche Partner, der eine Rack-Scale-Blackwell-Plattform produktiv ans Netz gebracht hat – ein Jahr vor der allgemeinen Verfügbarkeit von Vera Rubin.

Diese Erfahrung aus zwei SuperPOD‑Bring‑ups in Folge fließt direkt in unsere Vera‑Rubin‑Beratung und ‑Integration ein.

DELTA Computer

Ihr NVIDIA Elite Partner für Vera Rubin.

DELTA Computer Products GmbH ist seit 1985 am Markt. Als einer der wenigen NVIDIA Elite Partner in Deutschland mit produktiver SuperPOD-Erfahrung realisieren wir DGX- und HGX-Infrastrukturen für Universitäten, Helmholtz- und Max-Planck-Institute, Fraunhofer-Einrichtungen, Universitätskliniken sowie forschungsnahe Unternehmen im DACH-Raum.

Unser Test Center in Glinde steht für Vera-Rubin-Vorabevaluierungen ab Verfügbarkeit zur Verfügung. Bis dahin können Sie Ihre Workloads auf produktiven DGX-B300-Systemen validieren, bei identischem CUDA-Stack ist die Migration auf Vera Rubin später ohne Code-Änderung möglich.

Direktkontakt

AdresseAm Alten Lokschuppen 4
D-21509 Glinde

Telefon+49 40 300672‑0

E-Mail[email protected]

GeschäftszeitMo–Fr 07:30–18:30

GeschäftsführungHans-Peter Hellmann

NVIDIA Elite PartnerStar Performer Central EuropeISO 9001ISO 14001ISO 27001EcoVadis Gold

⊞

PDF

Hintergrundbericht

Vera Rubin Dossier von DELTA

Ausführliche technische und kommerzielle Aufbereitung der Vera-Rubin-Plattform: Architektur, Roadmap, Bezugsoptionen, Beschaffungs-Hinweise und Workload-Empfehlungen. Erstellt für Beschaffungsteams in Forschungseinrichtungen.

Dossier herunterladen↓

PDF · ca. 12 Seiten

FAQ

Häufig gestellte Fragen

Antworten auf die 19 Fragen, die unsere Kunden im DACH-Raum beim Vera-Rubin-Sondierungsgespräch am häufigsten stellen. Technische Begriffe sind im Glossar am Ende der Seite kurz erklärt.

Schnell-Erklärungen

Was ist Vera Rubin überhaupt?+

Vera Rubin ist NVIDIAs nächste Generation von KI-Hardware nach Blackwell. Vera bezeichnet die neue CPU, Rubin die neue GPU. Beide werden in einem Rack-Scale-System kombiniert (Vera Rubin NVL72) und sind ab Q3 2026 verfügbar. Die Plattform ist für Reasoning-Modelle, agentische KI und Million-Token-Kontextfenster ausgelegt. Alle technischen Begriffe finden Sie im Glossar am Ende der Seite.

Was bedeutet NVFP4?+

NVFP4 ist NVIDIAs 4-Bit-Floating-Point-Datenformat für Inferenz und Training. Es ermöglicht deutlich höheren Durchsatz als FP8 oder FP16 bei minimalem Genauigkeitsverlust. Die Hardware-Beschleunigung ist im Transformer Engine der Rubin GPU integriert. Mehr im Glossar.

Was heißt liquid-cooled konkret?+

100 % Liquid-Cooled bedeutet, dass alle Hauptwärmequellen (CPU, GPU, NVSwitch) direkt über kalte Wasserplatten gekühlt werden. Vera Rubin akzeptiert 45 °C Inlet-Wassertemperatur, was in DACH-Klimazonen praktisch ganzjähriges Free Cooling erlaubt. Eine Coolant Distribution Unit (CDU) trennt den primären RZ-Kreislauf vom Rack-internen Kreislauf. Restwärme über Luft beträgt nur etwa 5–10 %.

Wer ist DELTA und warum NVIDIA Elite Partner?+

DELTA Computer Products GmbH aus Glinde bei Hamburg ist seit 1985 am Markt und gehört zu den wenigen NVIDIA Elite Partnern in Deutschland mit produktiver SuperPOD-Erfahrung. Wir haben für DeepL Europas erste DGX-H100- und DGX-GB200-NVL72-SuperPODs (Mercury und Arion) integriert. Elite Partner ist die höchste Partnerstufe von NVIDIA, mit direktem Engineering-Zugang und Priorisierung bei Produkt-Allokationen.

Produkt und Architektur

Was ist die NVIDIA Vera Rubin Plattform?+

NVIDIAs Rack-Scale-AI-Architektur der nächsten Generation. Sie löst die Blackwell-Ultra-Generation ab und besteht aus sieben aufeinander abgestimmten Chips: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 Switch und Rubin CPX. Verfügbar ab Q3 2026 über mehr als 50 MGX-Partner. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.

NVL72 oder NVL144, was stimmt jetzt?+

Beide Begriffe bezeichnen dasselbe Rack. NVIDIAs offizielle Produktbezeichnung ist Vera Rubin NVL72. NVL144 zählt die 144 Reticle-Compute-Dies (zwei Dies pro Rubin-Package). Die Variante Vera Rubin NVL144 CPX behält die 144er-Notation bewusst, weil dort zusätzlich 144 dedizierte Rubin-CPX-GPUs verbaut sind. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.

Welche Performance-Vorteile bringt Vera Rubin gegenüber Blackwell?+

Laut NVIDIAs offiziellen Aussagen: bis zu 5× höhere NVFP4-Inferenz pro GPU, 3,5× mehr Trainingsleistung und 10× geringere Token-Kosten gegenüber Blackwell. Hinzu kommen Confidential Computing der 3. Generation und die NVLink-6-Verdopplung der Scale-Up-Bandbreite auf 3,6 TB/s pro GPU.

Verfügbarkeit und Beschaffung

Wann ist die Plattform tatsächlich verfügbar?+

NVIDIA hat Vera Rubin NVL72 für Q3 2026 angekündigt, mit Volumenauslieferungen über mehr als 50 MGX-Partner. Vera Rubin NVL144 CPX folgt Ende 2026. Vera Rubin Ultra im Kyber-Rack startet 2027. Für konkrete Liefertermine ist eine Anfrage über DELTA mit Ihrer Workload- und Power-Spezifikation der schnellste Weg. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.

Wie lang ist die typische Vorlaufzeit von Anfrage bis produktivem Cluster?+

Aus produktiven SuperPOD-Projekten (Mercury und Arion): 8 bis 14 Monate ab Vertragsunterschrift. Davon entfallen typischerweise 4 bis 7 Monate auf OEM-Fertigung und Auslieferung, der Rest auf Site-Vorbereitung (Cooling, Power-Upgrade, Cabling) und Bring-up. Bei Großgeräteanträgen kommt die Antrags- und Bewilligungsphase davor.

Können wir heute schon auf DGX B300 anfangen und später auf Vera Rubin migrieren?+

Ja, das ist der empfohlene Pfad für Forschungseinrichtungen, die jetzt produktiv arbeiten wollen. Der CUDA-Stack ist über alle Generationen identisch. Kein Code-Refactoring beim Wechsel von B300 auf Rubin. NVAIE-Lizenzen sind übertragbar mit Update auf die jeweilige Major-Version. Das Test Center in Glinde steht für Validierung Ihrer Workloads auf produktivem B300 zur Verfügung.

Power und Cooling

Was braucht ein Vera-Rubin-NVL72-Rack an Strom und Kühlung?+

Power: ~190 kW pro Rack, geliefert über 415-VAC-Drehstrom mit redundanter Einspeisung. Spürbar mehr als das heute oft verbaute 100-kW-pro-Rack-Niveau.

Cooling: 100 % Liquid-Cooled mit 45 °C Inlet-Wasser. Datacenter-freundlich, weil Free Cooling fast ganzjährig möglich ist. Sie brauchen einen Sekundärkreis mit ausreichender CDU-Kapazität (~210 kW thermisch je Rack als Reserve). Restwärme über Luft: ~5 bis 10 %, üblicher Hot-Aisle reicht.

Brauchen wir 800 VDC im Datacenter?+

Nein, für Vera Rubin NVL72 und Vera Rubin NVL144 CPX nicht. Beide Plattformen werden klassisch über 415-VAC-Drehstrom versorgt. 800 VDC wird erst für Vera Rubin Ultra im Kyber-Rack 2027 Pflicht. Bis dahin ist 800 VDC ein Datacenter-Modernisierungsthema, das Sie strategisch im Auge behalten, aber 2026 nicht aktiv adressieren müssen. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.

Wir haben heute nur 100 kW pro Rack, was tun?+

Drei Wege: Erstens, Power-Upgrade auf 200 kW pro Rack mit Ihrem RZ-Betreiber abstimmen – meist ohne baulichen Eingriff über stärkere PDUs machbar. Zweitens, alternative Konfiguration als DGX NVL8-Server, der mit 30 bis 50 kW pro Rack auskommt. Drittens, Co-Location bei einem AI-Datacenter-Anbieter, der bereits 200+ kW pro Rack stellt. DELTA berät bei allen drei Wegen.

Konfigurationsentscheidung

Welche Variante passt zu uns: DGX NVL8, NVL72 oder NVL144 CPX?+

DGX Rubin NVL8 für 8-GPU-Workloads, klassische Server-Klasse, Bestands-RZ mit 30 bis 50 kW pro Rack. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.

Vera Rubin NVL72 für allgemeine Forschung, Training mittlerer bis großer Modelle, Mixed Workloads, kohärente NVLink-Domain über 72 GPUs.

Vera Rubin NVL144 CPX, wenn Ihre Inferenz dominanter Workload ist und Sie mit Million-Token-Kontextfenstern arbeiten – Code-Agenten, Document-AI, Video-Generation, Deep Research. Hier liefert CPX 7,5× mehr Performance pro Rack als GB300 NVL72.

Faustregel: Wenn mehr als 60 % Ihrer Token aus Prefill-Phasen kommen, lohnt CPX.

Können wir später ein Standard-NVL72 zu einem NVL144 CPX upgraden?+

Ja. NVIDIA bietet dedizierte CPX-Compute-Trays für Bestandskunden mit VR-NVL72-Racks an. Alternativ gibt es das Vera Rubin CPX Dual Rack, ein zweites Rack neben dem NVL72, gefüllt mit 144 Rubin-CPX-GPUs, verbunden über externes PCIe. Verfügbarkeit und finale Specs nach NVIDIA-Freigabe.

Was unterscheidet HGX-Server von Rack-Scale-Systemen wirklich?+

Die NVLink-Domain: ein HGX-Server hat 8 GPUs in einer NVLink-Domain, ein NVL72-Rack hat 72 GPUs in einer einzigen kohärenten Domain. Bei NVL72 können Sie ein 1-Billion-Parameter-Modell als ein einziger Memory-Pool ansprechen, ohne explizites Sharding. Sobald Sie über die NVLink-Domain hinausgehen, brauchen Sie Scale-Out-Networking (ConnectX-9 plus InfiniBand oder Ethernet) und müssen Ihr Modell explizit sharden.

Beschaffung und DELTA-Service

Vera Rubin als Großgeräte-Beschaffung, wie läuft das?+

Ja. Vera Rubin lässt sich im Rahmen von Großgeräteanträgen nach Art. 91b GG über die DFG, oder als Forschungsbau, beantragen. Wichtig: Der Antrag braucht eine Verfügbarkeits- und Liefertermin-Begründung. DELTA stellt für laufende Anträge eine entsprechende Lieferbestätigungs-Zusage. Auch NVAIE-Lizenzen, Liquid-Cooling-Infrastruktur, Cabling und Service-Pakete sind beantragsfähig.

Welcher Support kommt mit dem Rack?+

Standard ist eine 3-Jahres-Hardware-Garantie über die OEM-Kette (Supermicro, Gigabyte, MSI, Quanta, ASUS, je nach Konfiguration). Optional bietet DELTA Premium Support mit definierten Reaktionszeiten, On-Site-Service und RMA-Abwicklung in Deutschland. NVAIE-Software-Support läuft separat über die NVIDIA-Lizenz.

Macht DELTA auch Cluster-Betrieb oder Managed Services?+

Wir betreiben keine eigenen Cluster für Sie – das gehört in Ihre Hoheit, weil Forschungsdaten unter DSGVO und Hochschul-IT-Richtlinien stehen. Aber wir unterstützen bei Setup, Konfiguration, Validierungsläufen und Updates. Auf Wunsch begleiten wir auch die Schulung Ihres RZ-Teams im Umgang mit NVIDIA Mission Control, DGX OS und Slurm oder Kubernetes.

Glossar

Begriffe in 30 Sekunden

18 Schlüsselbegriffe rund um Vera Rubin, von Olympus-Kernen bis 800 VDC.

Vera CPU

NVIDIAs zweite Generation Arm-basierter Server-CPUs. 88 proprietäre Olympus-Kerne (Armv9.2) mit SMT2, bis zu 176 parallele Threads.

Rubin GPU

Erste GPU der Rubin-Architektur. Zwei Compute-Tiles auf TSMC 3 nm, 288 GB HBM4, 50 PFLOPS NVFP4-Inferenz pro GPU.

Olympus-Kerne

NVIDIAs eigene Armv9.2-Kerne in der Vera CPU. Ablösung der Neoverse-V2-Kerne aus der Grace-Generation.

NVLink 6

Sechste Generation des NVLink-Interconnects. 3,6 TB/s pro GPU bidirektional, doppelte Bandbreite gegenüber NVLink 5 in Blackwell.

NVLink-C2C

Chip-to-Chip-Variante von NVLink für die kohärente Anbindung von Vera CPU und Rubin GPU. 1,8 TB/s, doppelt so schnell wie Grace-Hopper-C2C.

HBM4

High-Bandwidth-Memory der vierten Generation. Stacked DRAM auf-Package mit deutlich höherer Bandbreite als HBM3e.

NVFP4

NVIDIAs 4-Bit-Floating-Point-Format für Inferenz und Training mit minimalem Genauigkeitsverlust gegenüber FP8. Hardware-beschleunigt im Transformer Engine.

MGX

NVIDIAs modulare Server-Architektur. Mehr als 80 Ökosystempartner liefern MGX-konforme Designs für Vera Rubin.

Oberon-Rack

Rack-Architektur für GB200, GB300 und Vera Rubin NVL72. 100 % Liquid-Cooled, 415-VAC-Drehstrom, ~190 kW pro Rack.

Kyber-Rack

Nachfolger zu Oberon. Wird ab 2027 mit Vera Rubin Ultra ausgeliefert. 576 Rubin Ultra GPUs pro Rack, 800 VDC, bis zu 600 kW.

ConnectX-9

Achte Generation der Mellanox-Server-NICs. SuperNIC mit 800 Gb/s pro Port, PCIe 6.0 x16. Endpunkt für Quantum-X800 InfiniBand und Spectrum-X Ethernet.

BlueField-4

Vierte Generation der Mellanox-DPU. Übernimmt Storage, Sicherheit, Telemetrie und Netzwerk-Orchestrierung von der Host-CPU. Integriert eine 64-Core-Grace-CPU.

Astra-Architektur

NVIDIAs Bezeichnung für die Architektur, in der BlueField-4 die Front-End- und Back-End-Netzwerke zentral verwaltet.

Spectrum-6

Sechste Generation der Mellanox-Ethernet-Switch-Chips. CPO-Variante (Co-Packaged Optics) reduziert Strombedarf für Long-Haul-Verbindungen.

Rubin CPX

Spezialisierter GPU-Beschleuniger für die Prefill-Phase langer LLM-Kontextfenster. 30 PFLOPS NVFP4, GDDR7 statt HBM, 3× Attention-Acceleration vs. GB300 NVL72 (NVIDIA-Roadmap, Verfügbarkeit nach Freigabe).

Confidential Computing

Hardware-Trusted-Execution-Environment für GPU- und CPU-Workloads. In der Vera-Rubin-Plattform 3. Generation, rack-skaliert mit Attestation-Services.

Disaggregated Inference

Architekturansatz, bei dem Prefill und Decode auf spezialisierter Hardware laufen. Vera Rubin NVL144 CPX ist die erste Plattform mit nativer Hardware-Disaggregation für Inferenz.

800 VDC

Hochspannungs-Gleichstrom-Architektur für Megawatt-Racks. Reduziert Konvertierungsverluste, Kupferbedarf und Wartungsaufwand. Pflicht für Vera Rubin Ultra ab 2027.

◈Quellen und Hinweise+

Stand 03/2026: NVIDIA hat auf der GTC 2026 die Disaggregated-Inference-Strategie geschärft. Verfügbarkeit, Zeitplan und finale Hardware-Komponenten für die Decode-Phase werden von NVIDIA finalisiert.

NVIDIA-Primärquellen:

Konferenz- und Industrie-Quellen:

Hinweise zur Aktualität:

Stand der gesamten Seite: Mai 2026
Werte mit der Kennzeichnung „projiziert“ sind NVIDIA-Roadmap-Aussagen und können sich bis zum Launch ändern.
Performance-Vergleiche gegenüber Blackwell sind NVIDIAs eigene Aussagen und unterliegen workload-spezifischer Variation.
Liefertermine, Preise und Konfigurations-Details sind über DELTA Computer verbindlich abzuklären.

Bereit für Vera Rubin? Sprechen Sie früh mit DELTA.

Ein Vera-Rubin-Rack kommt nicht in 5 Werktagen aus dem Karton. Workload-Profil, Site-Anforderungen, Förderpfade und der richtige Zeitpunkt für eine Beschaffung sind Themen für ein 30-Minuten-Gespräch. Oder testen Sie heute schon auf einem produktiven DGX B300 in unserem Test Center in Glinde – identischer CUDA-Stack, portierbar zu Vera Rubin.

Beratung anfragen Testzugang DGX B300

Neueste Beiträge

NVIDIA-AI-Enterprise