Wortmann AG (TERRA)
TERRA KI/GPU-SERVER · 8x RTX 6000 Blackwell 768 GB VRAM
TERRA KI/GPU-SERVER · 8x RTX 6000 Blackwell 768 GB VRAM
Lieferzeit: ca. 4-6 Wochen
Verfügbarkeit für Abholungen konnte nicht geladen werden
GPU-Server mit 8× NVIDIA RTX PRO 6000 Blackwell (96 GB)
Robuste Plattform für KI-Inference im Unternehmen: optimiert für große Sprachmodelle (bis ~120B), hohe Parallelität und stabile Laufzeit im 24/7-Betrieb. Ausgelegt auf Datensouveränität, Nachvollziehbarkeit und Wartbarkeit.
Hoher Durchsatz
8 GPUs mit je 96 GB VRAM für parallele Inferenz, Continuous Batching und lange Kontexte.
Große Modelle
Geeignet für 70B–120B-Klasse (z. B. Heavy-Path) plus schnelles 8–14B-Modell als Fast-Path.
On-Prem & auditierbar
Betrieb im eigenen Rechenzentrum: Daten bleiben intern, Prozesse sind protokolliert.
Typische Einsatzszenarien
LLM-Serving im Unternehmen
- Interne Assistenzen, Wissenssuche (RAG), Dokumentenzusammenfassungen
- Decision Notes, Meeting-Briefs, To-do-Extraktion
- Mehrsprachige Antworten & lange Kontexte
Medien & Vision
- Bild-/Video-Inferenz (z. B. Diffusion, Vision-Modelle)
- Assistierte Inhaltsproduktion und Recherche
- Batch-Verarbeitung & Pipelines
Bewährter Stack für den Betrieb
Model-Serving
vLLM (Tensor-Parallel), Continuous Batching, Paged Attention. Fast-/Heavy-Path Routing.
Daten & RAG
Vektor-Index für Wissenssuche, strukturierte Notizen, Quellenbezug & Zitate.
Monitoring
DCGM-Exporter, Prometheus, Grafana. Logs & Audit-Trails für Nachvollziehbarkeit.
Technische Spezifikationen (Beispielkonfiguration)
- GPU: 8× NVIDIA RTX PRO 6000 Blackwell, 96 GB VRAM je Karte
- Chassis: 4U GPU-Server mit 8× PCIe x16 (Dual-Slot-Support)
- CPU: Dual AMD EPYC (9004-Serie), viele PCIe-Lanes
- RAM: ab 768 GB DDR5 ECC, erweiterbar
- Storage (OS/Logs): 2× NVMe (RAID1)
- Storage (Daten): NVMe-Bays für RAG-Korpus/Embeddings
- Netzwerk: 1× 100 GbE oder 2× 25 GbE
- Netzteile: bis 4× 3000 W (N+1), Titanium
- Betriebssystem: Ubuntu Server LTS
- Software: Docker, NVIDIA Toolkit, vLLM, Monitoring-Stack
Hinweis: Die genaue Bestückung (CPUs, RAM-Größe, NVMe-Anzahl) wird auf Workload und Budget abgestimmt.
Leistung & Kapazität in der Praxis
- Parallelität: Ausgelegt für ~20 gleichzeitige Nutzer mit Routing (Fast-/Heavy-Path).
- Modelle: 8–14B für Routine (schnell), 70B–120B für anspruchsvolle Prompts.
- Kontextlängen: praxisnah 8k–16k; längere Kontexte sind möglich, reduzieren aber Durchsatz.
- Betrieb: 24/7-fähig mit Persistence-Mode, Health-Checks und Alerting.
Infrastruktur-Voraussetzungen
Strom & Kühlung
Gesamtaufnahme im kW-Bereich; Kalt-/Warmgang-Trennung und ausreichende Luftführung erforderlich.
Rack & Verkabelung
4U-Einbau, stabile Rails, passende Stromanschlüsse (dreiphasig empfohlen), QSFP/SFP je nach Switch.
Betrieb & Sicherheit
iKVM/IPMI, Rollen/Rechte, Audit-Logs; Updates & Monitoring nach festen Wartungsfenstern.
Lieferumfang & Services
Enthalten
- Vorkonfiguriertes OS inkl. NVIDIA-Treiber & Container-Runtime
- Referenz-Setup für vLLM (Fast/Heavy-Path)
- Monitoring-Vorlage (Prometheus/Grafana)
- Inbetriebnahme-Checkliste & Dokumentation
Optional
- RAG-Einrichtung (Index, Pipelines, Deduplikation)
- On-Prem-Assistenz „Clara“ (Pilot, Policies, Logs)
- SLAs & Vor-Ort-Service nach Bedarf
Passt der Server zu Ihrem Workload?
Wir kalkulieren gemeinsam Kapazität, Strom/Kühlung und Modell-Mix – praxisnah und skalierbar.
Share
