●コールドプレートと液体を組み合わせた冷却技術SC14の展示では、CPUなどの発熱を、空気ではなく液体を使って運び出すシステムの展示が目立った。また、そのための冷却システムを販売している会社の展示も多く見られた。スパコンの高密度実装が進んだために、空気で熱を運ぶ方法では発生する熱を運びきれなくなってきたことが、その背景にある。
空気の比熱は1008J/Kg℃(40℃)で、水の比熱は4180J/Kg℃程度であるから、重量あたりでは、水は空気の4倍程度の熱を運べる。しかし、水の密度はおおよそ1000kg/m3であるのに対して空気の密度はおおよそ1.2kg/m3であるから、体積当たりにすると、水は3500倍あまりの熱を運べることになる。
CPUのヒートシンクの高さが2cm、幅が10cmとすると、空気の流れる断面積は0.002m2で、流速1mとすると10℃の温度上昇で運べる熱は22J/s(=22W)である。これではCPUの発熱を運びきれない。CPU 1個だけなら20℃上昇を許容して流速を3m/sにすれば、132Wの熱を運ぶことができるが、複数のCPUや他の発熱部品を狭いところに詰め込むと、この条件を満たすのは難しく、空気では冷やせなくなる。
一方、水は体積が同じなら3500倍の熱を運ぶことができるので、毎秒0.6cm3というわずかな流量で同じ熱を運べる。そして、10cm3/sの水をパイプで供給することは難しくないので、現在の発熱密度が10倍になっても十分、冷却が可能である。
○コールドプレートを使う水冷方式
水は電気を通してしまうので、直接、LSIやプリント板に触れさせるわけにはいかない。このため、パイプなどで水を運び、LSIなどに水で冷やす銅板やアルミ板などを接触させて冷却するという方法は古くから使われてきた。この水で冷やした銅板(あるいはブロック)を「コールドプレート(Cold Plate)」と呼ぶ。
コールドプレート方式の弱点は、CPUなどの少数の高発熱の部品を冷やすには適しているが、メモリDIMMや、その他の部品にまでコールドプレートを付けることは難しいので、それらの部品の発熱を取り去るために空冷のファンも必要になるという点である。
次の写真は、冷却系のメーカーであるASETEKの水冷用のラックといくつかの製品の例である。写真では見えないが、ASETEKのラックは、CPUなどを冷やして温まった水の熱を2次冷却水に移す熱交換器を内部に持っている。そして、冷却水の給排水系には、ASETEKはプラスチックの可撓制のあるパイプを使っている。
CoolITも冷却システムのメーカーである。CoolITのコールドプレートは長方形の角を落としたような形状で、こちらも接続にはプラスチックパイプを使っている。ASETEKは1ラック用のCDUをラックに内蔵しているが、CoolITは、集中型の大きなCDUで複数のラックに冷却水を供給している。
ASETEKやCoolITはプラスチックパイプを使っているが、水漏れを心配して、歴史的には、パイプとコールドプレートを銅で作って溶接するというのが一般的であり、LenovoのNeXtScaleサーバや富士通のFX100スパコンをはじめとして、多くの水冷システムは銅を使っている。銅パイプの場合は、力が掛かって接続部が破損しないように、余裕を持った配管が行われる。
Lenovoのサーバは主要LSIだけにコールドプレートを取り付けているのであるが、DIMMにはカバーが掛けられており、この部分もヒートパイプを使うなど何等かの方法で水冷されているようである。Lenovoの説明パネルでは、85%以上の熱を水冷で運んでいると書かれていた。
富士通のFX100スパコンの3ノードボードは1つのコールドプレートで、CPU LSIと両脇に配置された計8個のMicronのHMCメモリを冷却している。なお、この写真では、中央のノードはLSIが見えるようにコールドプレートを取り外した状態で展示されている。
京コンピュータの時は、メモリDIMMは空冷、IOノードも空冷で、ラックの発熱の50%程度しか水冷されていなかったが、FX100では90%が水冷である。そして残る10%もオプションのEXCU(リアドア空冷か)で吸収して計算機室の空調負荷をゼロにすることができる設計となっている。
SGIのICE-Xサーバは冷却水の通路は銅パイプであるが、コールドプレートはアルミで作られている。
なお、水冷のシステムは、冷却水の接続にはノンスピル(あるいはドリップレスともいう)コネクタを使っており、コネクタを抜いても水が漏れることがないようになっている。
○カスタムのコールドプレートを使う水冷
プリント板に搭載された発熱部品の高さはマチマチであるので、単純な平面の大きなコールドプレートではうまく接触しない。このため、プリント板とほぼ同じサイズのアルミの分厚い板をそれぞれの部品の高さに合わせて、削ってすべての発熱部品に接触するようにして、ほぼ100%の熱をコールドプレートで運び出すというやり方を取っているのは主にヨーロッパ勢で、フランスのBULL、ロシアのRSC group、イタリアのEurotechなどである。
Eurotechは、SC14において第2世代となる「Aurora Hiveシステム」を発表した。Aurora Hiveのモジュールはブリックと呼ばれ、幅が105mm高さが130mmで奥行が325mmとなっている。このブリックをラックの前後から挿入する構造で、表、裏ともに16行×4列のブリックを収容する。従って、ラック全体では128ノードを収容できる。
ブリックは6角形ではなく4角形であるが、ラックには、ブリックを入れる4角形のスペースが整然と並んでいる様子が蜂の巣に似ていることからHiveと名付けられたという。
コールドプレートは冷蔵庫の冷却プレートのような形状で、そのままでは発熱部品とは接触せず、間を埋めるような金属部品を取り付けているようである。分厚いアルミ板から削り出すのは高くつくと思われ、こちらの方が安くできそうである。
このブリックに6枚のボードを収容でき、Xeon E3 1200 v3、あるいはX-Gene Oneプロセサを搭載したCPUボードが1枚、NVIDIAのK40あるいはXeon Phiボードを4枚、そしてInfiniBandの通信ボードを1枚というのが標準的な構成である。
●不活性液体による浸漬を活用した冷却技術○不活性液体を使う浸漬液冷方式
コールドプレートでは主要発熱部品だけの放熱に限定され、より多くの部品の放熱を行おうとすると、カスタムの切削加工などが必要となり、コストが掛かる。それなら、電気を通さない不活性の液体にプリント板を漬けてしまえば、全部の部品の放熱ができるという方式が考えられる。これが不活性液体を使う浸漬冷却である。
不活性の液体として使われているのは、Exxon Mobile Chemicalが製造している商品名「SpectraSyn(Poly-Alpha-Olefin:PAO)」、3Mが製造している商品名「Fluorinert(Fluorocarbon)」、同じく3Mが製造している商品名「Novec(PerFluoroKetoneやHydroFluoroEtherなど)」がほとんどである。
SpectraSynは車のエンジンオイルのようなもので比較的安価であるが、多少べとつくので、修理などの際にプリント基板や部品から取り除くのが大変という難点がある。FluorinertやNovecは蒸発してしまうのでしばらく放置すれば取り除けるが、冷却液が非常に高価なのが難点である。例えば、通販サイト「モノタロウ」でのフロリナート1.5Kg入りのビンの値段は、種類によって異なるが、34,900〜50,353円となっている。1.5Kgといっても比重が1.7〜1.9くらいと重いので、ビールの大瓶より少し多い程度の体積でしかない。つまり、ビールの100倍以上高い液体である。Novecの方はフロリナートの半分くらいのお値段であるがそれでも安くはない。
大量に買えばもっと安くなるのであろうが、これで数100リットルのタンクを満たすのは大変である。
Green Revolution Cooling(GRC)はSpectraSynを冷媒として使っている。写真の製品は42Uの標準ラックを横に倒してオイルに漬けたようなもので、これにオイルを循環させて、外部の熱交換器で冷却している。なお、この写真では隙間をあけてサーバを入れているが、詰めて実装することができる。昨年11月と今年6月のGreen500で1位を取った東工大のTSUBANE-KFCは、このGRCの製品を使っている。
LiquidCool Solutionsの製品は、サーバボードをアルミのケースに入れて密閉し、ケースにオイルの供給と排出のコネクタを付けたという構造になっている。合成オイルで満たされるのはケースの中だけなので、開放型のGRCのものより多少は扱い易いと思われるが、修理などの際は、ケースを開けて、オイルを除去する必要があり、手間が掛かりそうである。
なお、この写真ではアルミケースを水槽に入れているが、これは浸漬液冷という演出だけで、通常の使用ではこのように浸漬されることはない。
東工大は、京コンピュータを1つのキャビネットに収容するTSUBAME 4を2021〜2022年に完成させるいうロードマップを持っており、このTSUBAME 4の研究のため、試作機を作っており、NVIDIAのJetson TK1という組み込み用のボードを使った36ノードの試作機をSC14で展示した。この写真のようにプリント板の下半分だけを合成オイルに漬けて冷却している。主要な発熱部品は下半分に搭載されているので、これでも液冷の効果は得られる。また、上側にあるコネクタ類はオイルに浸からないので、保守やケーブルの繋ぎ変えが簡単にできるという。
ICEOTOPEは、3MのNovecを冷媒として使っている。写真に見られる密閉型のモジュールはNovecで満たされている。モジュール内部にはNovecと外部からの冷却水の間の熱交換器が組み込まれており、モジュールには冷却水を供給する。つまり、外部から見ると、水冷のモジュールと同じになっている。
LSIの発熱でMovecを気化させ、熱交換器で冷却して、液体に戻すという2相式の冷却であるので、比熱で熱を運ぶより効率が高いと思われる。
下の写真はNovecの製造元の3Mのブースに展示されたもので、Novecを満たした水槽にプリント板を漬けている。展示のため、蓋が十字に置いてあるが、動作中は蒸気を逃がさないように蓋を閉める必要があると思われる。
今回のGreen500で2位となったExaScaler/PEZYの展示は、何故かSuiren(睡蓮)スパコンが設置されているKEKのブースではなく、共同研究先の東京大学(平木研究室)のブースにあった。アクセラレータであるPEZY-SCのチップやボードは実物が展示されていたが、重くて嵩張る水槽は無く、パネルでの展示であった。
Suirenは浸漬液冷で、これまで冷媒はフッ化炭素系というだけで詳細は非公開であったが、今回、3Mのプレスリリースで、FC-43という沸点174℃、密度1880Kg/m3のものを使っていることが明らかになった。
●ヒートパイプを活用した冷却技術○ヒートパイプで熱を運ぶ冷却
高発熱の部品からヒートパイプで熱を運び出し、処理しやすい場所に水や空気との熱交換器を設けるという方法を取るシステムもある。
HPのHPC向けのサーバである「Apollo 8000」は、次の写真に見られるように、ヒートパイプでCPUなどの熱を運び出す。そして、写真の左側に写っているブレードの側面に見られるように、ヒートパイプの端を露出させた構造になっている。ラックに挿入すると、この露出部分が水冷のレールに接触し、熱を冷却水に伝えるという構造になっている。
ヒートパイプの中は、発熱サイドで冷媒の温度が上がって蒸発し、水冷のレールに接触している部分で液に戻るという2相の冷却システムとなっており、その熱を2次冷却水に伝えるという冷却システムになっている。その点では、構造は大きく異なるが、原理的にはICEOTOPEのものと同じである。
また、パネル展示だけで実物は無かったが、Calyosという会社が、「Vapor Chamber」という製品を展示していた。ASETEKやCoolITのコールドプレートのような形状のVapor Chamberをプラスチックや銅パイプで接続してヒートパイプを構成して熱を運び出す。しかし、一般にヒートパイプは銅系の合金のパイプで、封じ切りで作られており、この構造で蒸気が漏れないのかが気になった。
この記事で紹介したように、SC14では高性能の冷却システムを使用するシステムが数多く展示された。サーバやスパコンのエネルギー効率は改善されていくが、必要な性能の増大の方がスピードが速く、発熱量は増える方向にある。また、設置面積を小さくするため、発熱の密度はどんどん高まっており、高性能の冷却システムの必要性が高まっていることが、この背景にある。
そして、この記事で紹介したように、色々な冷却方式が使われており、現在は、乱立とも言える状態である。業界として経験を積むにつれて、将来的には、使い勝手のよい幾つかの方式に集約して行くのではないかと思われる。
(Hisa Ando)