Effiziente Kühlung für High-Performance Computing

In Rechenzentren ist prädiktive KI bereits seit Jahren fester Bestandteil vieler Regelungs- und Monitoring-Systeme. Sie hilft Betreibern, die Energieeffizienz zu erhöhen und drohende Ausfälle frühzeitig zu erkennen. Mit dem Siegeszug von ChatGPT entwickelt sich jetzt auch das Thema generative KI zu einem internationalen Megatrend. Egal ob Konzepte, Texte, Bilder oder Videos, alles lässt sich mittlerweile mit generativer KI erstellen, bearbeiten oder verändern. Microsoft hat inzwischen sein GPT-4-Sprachmodell, welches auch ChatGPT zugrunde liegt, mit CoPilot sogar direkt in Windows 11, seine 365-Office-Produkte und seine Suchmaschine Bing integriert. Diese Entwicklung erfordert Rechen- und Speicherkapazitäten, die vor einigen Jahren noch undenkbar gewesen wären.

Aber auch in der Wissenschaft, der Medizin und bei Anwendungen wie dem autonomen Fahren steigen die Anforderungen an Rechenleistung weiter an. Dazu kommt, dass die für KI-Anwendungen eingesetzten Server mit jeder neuen Generation ihre Leistungsfähigkeit und ihren Energiebedarf vervielfachen. Das führt zu enormen Leistungsdichten in den Racks und bringt die in Rechenzentren üblicherweise eingesetzte Luftkühlung an ihre Grenzen. Um Server dennoch effizient und sicher zu kühlen, bietet sich deshalb der Einsatz von Flüssigkeitskühlung an.

Die gängigste Methode, ein Rechenzentrum zu kühlen, folgt der traditionellen Trennung der Rechenzentrumsfläche in Kalt- und Warmgänge durch sogenannte Einhausungen. So kann Kaltluft durch den Doppelboden oder direkt in die Kaltgänge geblasen werden. Die Server saugen die kalte Luft an der Vorderseite an, geben ihre Wärme an die Luft ab und blasen sie an der Rückseite des Racks wieder in die Warmgänge. Von dort wird die Luft über Kanäle in die Klimaschränke geleitet und erneut abgekühlt. Alternativ lassen sich Serverschränke auch über Rack-basierte Kühlung mit Kaltluft versorgen. Dabei geben Seitenkühler an der Vorderseite des Racks kalte Luft an die Server ab und nehmen die erwärmte Luft an der Rückseite wieder auf, um sie erneut zu kühlen. Ein Luftstrom, der durch ein IT-Gerät geleitet wird, erreicht jedoch in der Regel nicht alle Komponenten gleichmäßig. Dieser Effekt tritt vor allem bei der Raumluftkühlung auf, während bei Rack-basierten Seitenkühlsystemen wie dem Stulz CyberRow die Gefahr der Bildung von Hotspots deutlich geringer ist. Setzt man auf reine Luftkühlung, liegt die in der Praxis erreichbare Leistungsdichte pro Rack bei etwa 50 kW. Ein Wert, der für viele IT-Anwendungen mehr als ausreichend ist, im Bereich von Hochleistungs-KI-Systemen aber schnell zum limitierenden Faktor werden kann.

Liquid Cooling: Energieeffiziente Kühlung auch bei hohen Leistungsdichten

Setzt man auf Liquid Cooling, sind Kalt- und Warmgänge teilweise nicht mehr erforderlich, weil die Wärmeübertragung zum größten Teil in einem geschlossenen System ohne Zwischenmedium stattfindet. Eine zusätzliche Luftkühlung wird in diesem Falle nur noch für die Kühlung einiger Komponenten wie etwa Netzteile benötigt sowie für die Wärmelast, die im Falle von Immersion Cooling vom Tank selbst erzeugt wird. Trotzdem muss zwischen den Racks oder Tanks genügend Platz vorhanden sein, um Wartungsarbeiten vornehmen zu können oder Geräte auszutauschen. Durch den geringeren Platzbedarf eignet sich Liquid Cooling auch optimal für Edge-Standorte mit wenig Fläche und häufig wechselnden Umgebungstemperaturen. Da Flüssigkeit insgesamt mehr Wärme aufnehmen kann als Luft, kann auch die Leistungsdichte deutlich erhöht werden; mit Liquid Cooling sind Werte von 120 kW pro Rack ohne Probleme möglich. In der Branche wird nicht selten sogar eine Leistungsdichte von 250 kW genannt. In der praktischen Umsetzung stellt dieses zusätzliche Anforderungen an die Strominfrastruktur und Hydraulik. Beim Thema Abwärmenutzung ist Liquid Cooling gegenüber reiner Luftkühlung im Vorteil, weil ein höheres Temperaturniveau erreicht werden kann und die direkte Anbindung an einen Übergabewärmeübertrager so leichter möglich ist.

Varianten des Liquid Cooling

Aktuell sind verschiedene Varianten des Liquid Cooling erhältlich, die sich durch ihren Aufbau und ihre Effizienz unterscheiden. Bei der einen Variante kommen die zu kühlenden Bauteile direkt mit der Kühlflüssigkeit in Berührung (Immersion Cooling oder Tauchkühlung), bei der anderen werden die Bauteile mit einem Kühlkörper versehen, welcher von der Kühlflüssigkeit durchflossen wird (Direct-to-Chip-Kühlung).

Bei Direct-to-Chip-Kühlung ist die Umrüstung luftgekühlter Anlagen etwas einfacher, da in der Regel kein kompletter Tausch der Server und Racks erforderlich ist. Im Idealfall lassen sich die vorhandenen Server einfach mit anderen Kühlkörpern versehen und das Rack um eine Verteilung erweitern, an die die Leitungen der einzelnen Server angeschlossen werden können. Von dort wird dann eine Leitung aus dem Rack geführt, die es mit einer CDU (Coolant Distribution Unit) verbindet.

Die CDU ist wiederum über einen Wärmeübertrager an den Gebäudewasserkreislauf angebunden. Die dazu erforderlichen Leitungen können beispielsweise im vorhandenen Doppelboden verlegt werden. Die Direct-to-Chip-Kühlung funktioniert problemlos mit Wasser und ist nicht zwingend auf eine relativ teure dielektrische Flüssigkeit angewiesen. Allerdings besteht bei einer Undichtigkeit das Risiko eines Wasseraustritts. Bei Nutzung von dielektrischer Flüssigkeit hat eine Leckage jedoch keinen Einfluss auf die Betriebssicherheit der IT-Anlage.

Beim Einsatz von Tauchkühlung (Immersion Cooling) ist der Aufwand zur Umrüstung luftgekühlter Anlagen relativ hoch. Üblicherweise müssen die vorhandenen Server durch speziell für Tauchkühlung entwickelte Server ersetzt werden, die dann in Wannen oder Tanks mit dielektrischer Flüssigkeit betrieben werden. Vorhandene Racks können somit nicht weiter genutzt werden. Neben der absolut gleichmäßigen Wärmeableitung sorgt die Flüssigkeit auch dafür, dass die Mainboards keinen Staub mehr aufnehmen können und somit nicht gereinigt werden müssen.

Zirkulation mit oder ohne Pumpen: 1-Phasen- und 2-Phasenflüssigkeitskühlung

Eine weitere Unterscheidung besteht in der Art, wie die Kühlflüssigkeit zirkuliert. Bei der 1-Phasen-Flüssigkeitskühlung wird die dielektrische Flüssigkeit so ausgewählt, dass sie durch die aufgenommene Wärme nicht ihren Siedepunkt erreichen kann und immer flüssig bleibt. Um die Wärme abzuführen, wird die Flüssigkeit fortwährend durch einen externen Wärmeübertrager gepumpt.

Bei der 2-Phasen-Flüssigkeitskühlung ändert die Flüssigkeit durch die Temperaturdifferenzen fortwährend ihren Aggregatzustand. Je nach Spezifikation der dielektrischen Flüssigkeit überschreitet diese durch Wärmeaufnahme bei einer bestimmten Temperatur ihren Siedepunkt, wird gasförmig und steigt nach oben. Im oberen Bereich des Behälters ist ein Kondensator angebracht, der von außen mit einem Wasserkreislauf gekühlt wird. An diesem Kondensator kühlt die Flüssigkeit ab, wird flüssig und läuft wieder nach unten, um dort erneut Wärme aufzunehmen. Der Vorteil des 2-Phasen-Systems ist, dass diese Variante komplett ohne Pumpen auskommt und deshalb weniger bewegliche Teile erforderlich macht. Zu berücksichtigen ist hingegen, dass der GWP-Wert bei diesen Flüssigkeiten höher ist.

Fazit

Steigende Wärmelasten pro Rack erfordern neue Wege in der Klimatisierung von Rechenzentren. Bei Leistungsdichten von mehr als 50 kW gibt es aktuell keine Alternativen zur Flüssigkeitskühlung. Nutzt man die Direct-to-Chip-Variante, können vorhandene Server und Racks in der Regel umgerüstet und weitergenutzt werden. In den Serverräumen sind trotzdem einige Umbaumaßnahmen nötig, auch die Anschaffung weiterer Komponenten wie CDUs ist erforderlich. Baut man ein komplett neues High-Performance-Rechenzentrum, sollte man in jedem Fall auch die Tauchkühlung in seine Planungen einbeziehen und beide Systeme in der Planungsphase ausführlich miteinander vergleichen. Bei allen Varianten gilt es zu berücksichtigen, dass immer auch ein Anteil Luftkühlung ergänzend eingesetzt werden muss (Direct-to-Chip: 20-30% und Immersion 5-10%).