最近の話題 2014年11月22日

1.ExaScaler/PEZYと高エネ研の睡蓮がGrenn500で2位を獲得

  2014年11月21日のマイナビが,ExaScaler/PEZYが開発した高エネ研(KEK)の睡蓮スパコンがGreen50で2位を獲得したと報じています。

  Xeon E5-2660 v2 CPU 2チップと,1024コアのPEZY-SC 8チップからなる計算ノード32台をFDRのInfiniBandで接続したシステムで,187.1TFlopsのHPL性能を37.83kWで実現し,4945.65MFlops/Wを実現して,今回のGreen500で2位を獲得しています。

 1位はL-CSCと呼ぶドイツのヘルムホルツセンターのマシンで,301.3TFlopsを57.153kWで実現し,5271.8MFlops/Wでトップに立ち,エネルギー効率を5000MFlops/W台に載せました。このマシンはXeon E5-2690にAMDのFireProS9150をアクセラレータとして接続しています。Top500のエントリを見ると,全コア数が10976,アクセラレータコア数が9856となっているので,引き算をするとXeonのコア数は1120コアとなります。そして,Xeonは10コアなので,チップ数は112となります。一方,S9150は44コアなので,アクセラレータのチップ数は224となり,各Xeonに2台のS9150が付いているという計算になります。多分,ノードはデュアルソケットのXeonに,それぞれ2台のS9150が付いていると思われます。

 前回,前々回と連続2期,1位を占めた東工大のTSUBAME-KFCは,4ノード追加してHPL性能を157.4TFlopsと引き上げて,Top500入りを確保し,35.39kWの消費電力で4447.6MFlops/WとGreenのスコアも前回よりもスコアを引き上げたのですが,今回は3位となりました。

2.Top500は9位まで順位の変動なし

 2014年11月16日に第44回のTop500リストが発表されました。しかし,1位の天河2号から9位までの順位には全く変動がなく,Top10では唯一10位に米国政府機関の3.577PFlopsのシステムが加わっただけという結果になりました。

 10位のシステムはCRAYのCS-StormでXeon E5-2660 v2とTesla K40で構成されています。CRAYとしてはビッグデータの処理などをターゲットと言っており,NSAのような情報機関に設置されたのではないでしょうか?しかし,NSAは過去にはスパコンの存在も明らかにしてこなかったので,違う部署かもしれません。

 また,NASAのPleiadesが増強されて,前回21位から10位に上がったことから,TSUBAME-2.5は2ランク下がって15位となりました。

  今回,新たにTop500に加わったシステムの数は78で,歴史的にみても最低の数です。この結果,Top500の500位の性能も,前回の133.7TFlopsから153.38GTFlopsと20TFlops弱しか増加していません。

  Top10も顔ぶれがほとんど変わらないし,500位の性能の上がり方も緩やかで,このところ,Top500スパコン全体の性能の伸びの鈍化が顕著です。原因としては,スパコンへの投資が減っているのではないか,ムーアの法則の鈍化が影響しているのではないかなど諸説がありますが,はっきりとはわかっていません。

3.NVIDIAが最上位のTesla製品となるK80を発表

  2014年11月17日に,開催中のSC14において,最上位のTesla製品となるK80を発表しました。2014年11月18日のマイナビの記事に書いたので,そちらを参照していただけば良いのですが,それではスクラップブックの役目を果たせないので,掻い摘んで書いて,マイナビに書かなかったことも多少補足しておきたいと思います,

 Tesla K80は現在のK40の上位となる製品です。本来は20nmプロセスでMaxwellアーキの製品がK40の後継となるロードマップでしたが,これがこけたため,Keplerベースの後継製品が必要となりました。しかし,28nmプロセスで大幅に性能をあげることはできないので,K80はデュアルGPUで,それぞれに12GBのGDDR5 DRAMを搭載する構成となっています。

 使用しているGPUチップはGK210と呼ぶもので,K40のGK110Bと比べると,レジスタファイルとシェアードメモリの容量が倍増しているとのことです。これらの資源の量が制約になっていたアプリでは,性能の向上が見込めます。2つのGPU間の同期機構などは入っていないとのことです。

 CPUとの接続はPCIe3.0 x16ですが,これをPLXのPCIeスイッチで,2つのGPUに接続しています。このため,CPU側との通信バンド幅は,GPUあたりでは半分になってしまいますが,一方のGPUが他方のGPUのGDDR5メモリをアクセスするような場合は,PLX経由で,CPU側のPCIeに影響を与えないで通信ができます。

  K80では,各GPUのCUDAコア数は13×192で,K40の15×192より減っています。また,ベースクロックもK40では993MHzであるのに対して,K80では749MHzに下がっています。これらの効果でGPUの消費電力は半分程度になると思われますので,2チップ搭載して合計の電力はほぼ同じになっていると思われます。

  GDDR5メモリもK40では6Gb/sの転送速度に対して,K80では5Gb/sに落としています。しかし,これでは消費電力半減にはなりませんから,ボードの電力は増加します。また,PLXのスイッチの電力も若干ですが,増加します。結果として,K40は235Wに対して,K80は300Wとなっています。

  なお,どちらもGPUもGPU Boost時のクロックはほぼ同じなので,消費電力の制約を別とすれば,上限のクロックは同じ程度と思われます。

  NVIDIAは,DoEが調達するCORALスパコンにNVIDIAのGPUが採用されることを発表しました。NVLINKを使うとのことで,IBMのPOWER CPUにNVLINKでVolta GPUを接続するようです。NVLINK自体はPascal GPU世代から使うとのことで,どうもMaxwellは科学技術計算用のGPUとしては消えてしまうようです。

4.Intelが次々世代のXeon PhiでInfiniBand対抗のOmni Pathを集積すると発表

  2014年1月17日のEE Timesが,IntelのOmni Pathの発表を報じています。最大100Gb/sの速度で,48ポートのスイッチが作れ,レーテンシも現在のInfiniBandより56%短いとのことです。

  そして,このインタコネクトのインタフェースを内蔵するのは,Nights Landingの次のXeon Phiで,その名称はNights Hillだそうです。

  InfiniBandの雄のMellanoxは,数年先の製品と現在のInfiniBandを比べても意味がないというコメントです。私もSC14のIntelのブースで探したのですが,NightsシリーズのロードマップもOmni-Pathの展示もなく,展示員に聞いても分からず,担当に聞いて回答するとのことでしたが,結局,連絡は有りませんでした。

  SemiAccurateのCharlie Demerjian氏は,新たに明らかになった情報はNights Hillという名前だけで,中身のない発表と酷評しています。Intelは技術はあるのでしょうが,それを出さない発表では,興味を惹き付けるのは難しいと思います。

  中身の無い発表と,NVIDIAの偽ダイ写真は,やめて貰いたいと思います。


inserted by FC2 system