Zum Hauptinhalt springen Zur Suche springen Zur Hauptnavigation springen

HPC-Power für Forschung: GPU-Cluster beschleunigt Bildgebung, Kommunikation und adaptive Systeme

#AMD EPYC

Der Endkunde im vorliegenden Projekt ist eine führende Forschungseinrichtung mit Schwerpunkt auf anspruchsvollen wissenschaftlichen Anwendungen wie Kommunikationstechnologien, Röntgentechnik und adaptiven Systemen.

Hier werden große Datenmengen aus Messungen und Simulationen erfasst, verarbeitet und analysiert – unter anderem in der Bild- und Signalverarbeitung, bei der Optimierung komplexer Systeme oder der Entwicklung neuer Kommunikationsverfahren.

Die enge Verbindung von Grundlagenforschung und praktischer Anwendung sorgt dafür, dass Ergebnisse direkt in industrielle Lösungen einfließen, zum Beispiel in die medizinische Bildgebung oder präzise Qualitätskontrollen.

Um diese Arbeit effizient zu gestalten und auszubauen, setzt die Einrichtung auf High-Performance-Computing (HPC) als zentrales Werkzeug, um selbst größte Datenströme schnell auszuwerten und Innovationen rascher zur Anwendung zu bringen.

Projekt-Zeitraum: Q2/2025
Projekt-Volumen: Hochleistungs-GPU-Serverlösung im sechsstelligen Euro-Bereich

Projekt-Beschreibung

Das Projekt hatte zum Ziel, die bestehende HPC-Umgebung des Endkunden gezielt zu erweitern, um den wachsenden Anforderungen moderner wissenschaftlicher Workloads gerecht zu werden.

In den Laboren und Rechenzentren entstehen heute enorme Datenmengen – etwa aus hochauflösender Röntgenbildgebung, komplexen Mehrkanal-Sensorsystemen oder Simulationen adaptiver Systeme, die auf wechselnde Umweltbedingungen reagieren müssen. Solche Daten sind nicht nur speicherintensiv, sondern erfordern eine extrem hohe Verarbeitungsleistung, um in vertretbarer Zeit ausgewertet zu werden.

Parallel dazu wächst die Bedeutung KI-gestützter Verfahren wie Deep Learning, die in der Einrichtung unter anderem zur Mustererkennung, Systemprognose und Optimierung technischer Prozesse genutzt werden. Diese Workloads profitieren besonders von GPUs mit enormer Speicherbandbreite, geringer Latenz und einer Architektur, die auch in groß angelegten Rechenclustern höchste Effizienz liefert.

Das Ziel war die Umsetzung einer GPU-optimierten HPC-Lösung, die aktuelle Spitzenlasten souverän bewältigt, gleichzeitig Reserven für zukünftige Projekte bietet und dabei die Stabilität und Verfügbarkeit gewährleistet, die für einen 24/7-Betrieb in einem wissenschaftlichen Rechenzentrum essenziell ist.

Zentrale Anforderungen:
  • Maximale GPU-Rechenleistung für HPC- und KI-Workloads
  • Große Arbeitsspeicherkapazität mit hoher Bandbreite für parallele Datenverarbeitung
  • Schneller Massenspeicher mit niedriger Latenz und hoher IOPS-Leistung
  • Erweiterbarkeit für künftige Projekte und Hardware-Upgrades
  • Hohe Verfügbarkeit und ESD-konforme Fertigung für zuverlässigen Dauerbetrieb

Projekt-Realisierung

Serverplattform
  • Supermicro A+ Server AS-5126GS-TNRT
    → Rack-optimierte Plattform mit hoher Dichte, redundanter Stromversorgung und leistungsfähiger Kühlung – ausgelegt für Multi-GPU-Betrieb unter Dauerlast.
Prozessoren
  • 2× AMD EPYC 9655 (96 Kerne / 192 Threads, 2,60 GHz, max. Turbo 4,50 GHz, PCIe 5.0, 12-Channel DDR5-6000)
    → Enorme Parallelisierungsmöglichkeiten und hohe Speicherbandbreite zur optimalen Anbindung der GPUs und für CPU-intensive Teilprozesse.
Arbeitsspeicher
  • 24× 96 GB Samsung DDR5-6400 ECC reg. DR (Gesamt: 2,3 TB)
    → Großer, schneller und fehlertoleranter Speicher für speicherintensive Simulationen und Datenverarbeitungsprozesse.
System-Storage
  • 2× 960 GB Samsung PM893 SATA3 SSD
    → Zuverlässige Systemlaufwerke mit Power-Loss Protection und optimierter Haltbarkeit im Dauerbetrieb.
Daten-Storage
  • 3× 15,36 TB Samsung PM9A3 U.2 NVMe SSD (PCIe Gen4 x4, bis 5.200 MB/s Lesen)
    → Massenspeicher mit hoher sequenzieller Performance und exzellenter IOPS-Leistung – ideal für große Forschungsdatensätze.
GPU-Beschleuniger
  • 8× NVIDIA Tesla H200 NVL PCIe (Hopper, 141 GB HBM3e pro Karte, NVLink 900 GB/s)
    → Höchste Rechenleistung und Speicherbandbreite für Deep-Learning-Modelle, numerische Simulationen und datenintensive Analysen.
    → NVLink sorgt für extrem schnelle GPU-zu-GPU-Kommunikation, was die Effizienz verteilter Trainings- und Simulationsprozesse deutlich steigert.
Zusatz
  • Assemblierung nach ISO9001:2015 / ESD IEC 61340-5-1
  • 3 Jahre Teilegarantie (SLA 1/3, 5x9), ohne vorinstalliertes OS, getestet unter Linux

Ergebnis

Mit der neuen HPC-Serverinfrastruktur kann der Endkunde:

  • Rechenzeiten drastisch verkürzen – sowohl bei wissenschaftlichen Simulationen als auch bei KI-Trainings
  • Daten in bislang unerreichter Geschwindigkeit verarbeiten – dank optimaler CPU-GPU-Architektur und ultraschnellem NVMe-Storage
  • Forschungszyklen beschleunigen, wodurch sich Hypothesen schneller überprüfen und neue Ansätze schneller umsetzen lassen
  • Zukunftssicherheit gewährleisten – durch PCIe 5.0, erweiterbare GPU-Kapazität und modulare Systemarchitektur
  • Zuverlässig im 24/7-Betrieb arbeiten – abgesichert durch ESD-konforme Fertigung, ECC-Speicher und redundante Systemkomponenten

Die Investition stärkt die Wettbewerbsfähigkeit der Einrichtung im internationalen Forschungsumfeld und schafft die technischen Voraussetzungen, um auch in den kommenden Jahren anspruchsvollste wissenschaftliche Fragestellungen effizient zu lösen.

Sie haben ein Projekt, bei dem wir unterstützen können?

Unser Team steht Ihnen gerne zur Seite – bei Fragen zu Verfügbarkeiten, technischen Details oder der Auswahl passender Produkte. Sie erreichen uns telefonisch, per E-Mail oder direkt über unser Kontaktformular.