Wortmann AG (TERRA)

TERRA KI/GPU-SERVER · 8x RTX 6000 Blackwell 768 GB VRAM

Name: TERRA KI/GPU-SERVER · 8x RTX 6000 Blackwell 768 GB VRAM
Brand: Wortmann AG (TERRA)
Price: 119999.00 EUR
Availability: InStock

€119.999,00 EUR

Sale Ausverkauft

Inkl. MwSt. Versand wird beim Checkout berechnet

Lieferzeit: ca. 4-6 Wochen

GPU-Server mit 8× NVIDIA RTX PRO 6000 Blackwell (96 GB)

Robuste Plattform für KI-Inference im Unternehmen: optimiert für große Sprachmodelle (bis ~120B), hohe Parallelität und stabile Laufzeit im 24/7-Betrieb. Ausgelegt auf Datensouveränität, Nachvollziehbarkeit und Wartbarkeit.

Beratung anfragen KI-Bedarfsanalyse

Hoher Durchsatz

8 GPUs mit je 96 GB VRAM für parallele Inferenz, Continuous Batching und lange Kontexte.

Große Modelle

Geeignet für 70B–120B-Klasse (z. B. Heavy-Path) plus schnelles 8–14B-Modell als Fast-Path.

On-Prem & auditierbar

Betrieb im eigenen Rechenzentrum: Daten bleiben intern, Prozesse sind protokolliert.

Typische Einsatzszenarien

LLM-Serving im Unternehmen

Interne Assistenzen, Wissenssuche (RAG), Dokumentenzusammenfassungen
Decision Notes, Meeting-Briefs, To-do-Extraktion
Mehrsprachige Antworten & lange Kontexte

Medien & Vision

Bild-/Video-Inferenz (z. B. Diffusion, Vision-Modelle)
Assistierte Inhaltsproduktion und Recherche
Batch-Verarbeitung & Pipelines

Bewährter Stack für den Betrieb

Model-Serving

vLLM (Tensor-Parallel), Continuous Batching, Paged Attention. Fast-/Heavy-Path Routing.

Daten & RAG

Vektor-Index für Wissenssuche, strukturierte Notizen, Quellenbezug & Zitate.

Monitoring

DCGM-Exporter, Prometheus, Grafana. Logs & Audit-Trails für Nachvollziehbarkeit.

Technische Spezifikationen (Beispielkonfiguration)

GPU: 8× NVIDIA RTX PRO 6000 Blackwell, 96 GB VRAM je Karte
Chassis: 4U GPU-Server mit 8× PCIe x16 (Dual-Slot-Support)
CPU: Dual AMD EPYC (9004-Serie), viele PCIe-Lanes
RAM: ab 768 GB DDR5 ECC, erweiterbar
Storage (OS/Logs): 2× NVMe (RAID1)

Storage (Daten): NVMe-Bays für RAG-Korpus/Embeddings
Netzwerk: 1× 100 GbE oder 2× 25 GbE
Netzteile: bis 4× 3000 W (N+1), Titanium
Betriebssystem: Ubuntu Server LTS
Software: Docker, NVIDIA Toolkit, vLLM, Monitoring-Stack

Hinweis: Die genaue Bestückung (CPUs, RAM-Größe, NVMe-Anzahl) wird auf Workload und Budget abgestimmt.

Leistung & Kapazität in der Praxis

Parallelität: Ausgelegt für ~20 gleichzeitige Nutzer mit Routing (Fast-/Heavy-Path).
Modelle: 8–14B für Routine (schnell), 70B–120B für anspruchsvolle Prompts.
Kontextlängen: praxisnah 8k–16k; längere Kontexte sind möglich, reduzieren aber Durchsatz.
Betrieb: 24/7-fähig mit Persistence-Mode, Health-Checks und Alerting.

Infrastruktur-Voraussetzungen

Strom & Kühlung

Gesamtaufnahme im kW-Bereich; Kalt-/Warmgang-Trennung und ausreichende Luftführung erforderlich.

Rack & Verkabelung

4U-Einbau, stabile Rails, passende Stromanschlüsse (dreiphasig empfohlen), QSFP/SFP je nach Switch.

Betrieb & Sicherheit

iKVM/IPMI, Rollen/Rechte, Audit-Logs; Updates & Monitoring nach festen Wartungsfenstern.

Lieferumfang & Services

Enthalten

Vorkonfiguriertes OS inkl. NVIDIA-Treiber & Container-Runtime
Referenz-Setup für vLLM (Fast/Heavy-Path)
Monitoring-Vorlage (Prometheus/Grafana)
Inbetriebnahme-Checkliste & Dokumentation

Optional

RAG-Einrichtung (Index, Pipelines, Deduplikation)
On-Prem-Assistenz „Clara“ (Pilot, Policies, Logs)
SLAs & Vor-Ort-Service nach Bedarf

Passt der Server zu Ihrem Workload?

Wir kalkulieren gemeinsam Kapazität, Strom/Kühlung und Modell-Mix – praxisnah und skalierbar.

Kontakt aufnehmen KI-Bedarfsanalyse

Vollständige Details anzeigen