Zu Produktinformationen springen
1 von 1

Wortmann AG (TERRA)

TERRA KI/GPU-SERVER · 8x RTX 6000 Blackwell 768 GB VRAM

TERRA KI/GPU-SERVER · 8x RTX 6000 Blackwell 768 GB VRAM

Normaler Preis €119.999,00 EUR
Normaler Preis Verkaufspreis €119.999,00 EUR
Sale Ausverkauft
Inkl. MwSt. Versand wird beim Checkout berechnet

Lieferzeit: ca. 4-6 Wochen

Anzahl

GPU-Server mit 8× NVIDIA RTX PRO 6000 Blackwell (96 GB)

Robuste Plattform für KI-Inference im Unternehmen: optimiert für große Sprachmodelle (bis ~120B), hohe Parallelität und stabile Laufzeit im 24/7-Betrieb. Ausgelegt auf Datensouveränität, Nachvollziehbarkeit und Wartbarkeit.

Hoher Durchsatz

8 GPUs mit je 96 GB VRAM für parallele Inferenz, Continuous Batching und lange Kontexte.

Große Modelle

Geeignet für 70B–120B-Klasse (z. B. Heavy-Path) plus schnelles 8–14B-Modell als Fast-Path.

On-Prem & auditierbar

Betrieb im eigenen Rechenzentrum: Daten bleiben intern, Prozesse sind protokolliert.

Typische Einsatzszenarien

LLM-Serving im Unternehmen

  • Interne Assistenzen, Wissenssuche (RAG), Dokumentenzusammenfassungen
  • Decision Notes, Meeting-Briefs, To-do-Extraktion
  • Mehrsprachige Antworten & lange Kontexte

Medien & Vision

  • Bild-/Video-Inferenz (z. B. Diffusion, Vision-Modelle)
  • Assistierte Inhaltsproduktion und Recherche
  • Batch-Verarbeitung & Pipelines

Bewährter Stack für den Betrieb

Model-Serving

vLLM (Tensor-Parallel), Continuous Batching, Paged Attention. Fast-/Heavy-Path Routing.

Daten & RAG

Vektor-Index für Wissenssuche, strukturierte Notizen, Quellenbezug & Zitate.

Monitoring

DCGM-Exporter, Prometheus, Grafana. Logs & Audit-Trails für Nachvollziehbarkeit.

Technische Spezifikationen (Beispielkonfiguration)

  • GPU: 8× NVIDIA RTX PRO 6000 Blackwell, 96 GB VRAM je Karte
  • Chassis: 4U GPU-Server mit 8× PCIe x16 (Dual-Slot-Support)
  • CPU: Dual AMD EPYC (9004-Serie), viele PCIe-Lanes
  • RAM: ab 768 GB DDR5 ECC, erweiterbar
  • Storage (OS/Logs): 2× NVMe (RAID1)
  • Storage (Daten): NVMe-Bays für RAG-Korpus/Embeddings
  • Netzwerk: 1× 100 GbE oder 2× 25 GbE
  • Netzteile: bis 4× 3000 W (N+1), Titanium
  • Betriebssystem: Ubuntu Server LTS
  • Software: Docker, NVIDIA Toolkit, vLLM, Monitoring-Stack

Hinweis: Die genaue Bestückung (CPUs, RAM-Größe, NVMe-Anzahl) wird auf Workload und Budget abgestimmt.

Leistung & Kapazität in der Praxis

  • Parallelität: Ausgelegt für ~20 gleichzeitige Nutzer mit Routing (Fast-/Heavy-Path).
  • Modelle: 8–14B für Routine (schnell), 70B–120B für anspruchsvolle Prompts.
  • Kontextlängen: praxisnah 8k–16k; längere Kontexte sind möglich, reduzieren aber Durchsatz.
  • Betrieb: 24/7-fähig mit Persistence-Mode, Health-Checks und Alerting.

Infrastruktur-Voraussetzungen

Strom & Kühlung

Gesamtaufnahme im kW-Bereich; Kalt-/Warmgang-Trennung und ausreichende Luftführung erforderlich.

Rack & Verkabelung

4U-Einbau, stabile Rails, passende Stromanschlüsse (dreiphasig empfohlen), QSFP/SFP je nach Switch.

Betrieb & Sicherheit

iKVM/IPMI, Rollen/Rechte, Audit-Logs; Updates & Monitoring nach festen Wartungsfenstern.

Lieferumfang & Services

Enthalten

  • Vorkonfiguriertes OS inkl. NVIDIA-Treiber & Container-Runtime
  • Referenz-Setup für vLLM (Fast/Heavy-Path)
  • Monitoring-Vorlage (Prometheus/Grafana)
  • Inbetriebnahme-Checkliste & Dokumentation

Optional

  • RAG-Einrichtung (Index, Pipelines, Deduplikation)
  • On-Prem-Assistenz „Clara“ (Pilot, Policies, Logs)
  • SLAs & Vor-Ort-Service nach Bedarf

Passt der Server zu Ihrem Workload?

Wir kalkulieren gemeinsam Kapazität, Strom/Kühlung und Modell-Mix – praxisnah und skalierbar.

Vollständige Details anzeigen