最近の話題 2012年11月17日

1.第40回Top500の1位はTitan

  2012年11月12日に第40回のTop500が発表されました。1位は予想通りで,Oakridge国立研究所のTitanが取りました。Jaguarのボード交換でアップグレードしたCrayのXK7システムで,2.2GHzクロック16コアOpteron 6274を18688個とNVIDのK2X GPUを同数使用しています。

  Titanは,前回1位のSequoiaの16.29PFlopsを約1PFlops上回る17.3PFlopsを達成しています。しかし,今回の測定は,GPUのメモリだけを使っての測定で50分あまりで終わっているとのことです。

  LINPACKは,計算量は元数の3乗に比例し,データ量は元数の2乗に比例するので,大きな計算をする方がメモリアクセス時間の比率が小さくなるので性能が出しやすく,通常はCPUのメインメモリをフルに利用して測定します。これをGPUのメモリだけで測定したのは,時間が無かったのか,GPUだけの計算でSequoiaを抜けるので手間を省いたのかは分かりませんが,まだ,余裕のある数字に見えます。

  そして,2位が前回1位のSequoia,3位が前々回1位のK Computer,4位が前回3位のMiraとなっています。

  5位にドイツのFZJのJUQEENが入っています。JUQUEENは前回8位だったのですが,BG/Qのノード数を3倍に増やしてランクアップです。6位はドイツのLRZのSuperMUCで,前回6位から,2ランク下がっています。

  そして,7位にテキサス大TACCのStampedeが入りました。Stampedeは,8コア2.7GHzクロックのXeon E5-2680 CPUにXeon Phiを接続したシステムですが,Xeon E5は11550個,Xeon Phiは1875個となっています。Xeon E5が2個+Xeon Phiのノードが6400台の筈で,Xeon E5は,まあまあの数ですが,Xeon Phiの方は1/3くらいしか入っていません。こちらは数が揃えられなかったのでしょうね。また,StampedeのノードはXeon Phiが2台入れられる作りで,一部のノードには2台入れるとのことです。具体的にどうなるかは,未定とのことですが,次世代のXeon Phiが2台目として1600台ノード分追加というような話もあるようです。

  NCSAのBlue Watersも試用に入り,今回のTop500に顔を出すと思われたのですが,NCSAは実アプリでの性能目標の達成が最重要なので,LINPACKのTop500への登録は行わない方針とのことで,出てきていません。Top500のBoFで,「出さないところが増えるとTop500の信頼度が落ちるが,どう考えるのか」という質問も出たのですが,強制することは出来ないので,お願いしても出してくれないのは止むを得ないということのようです。これまでも,民間企業では,ライバルに手の内を知られたくないとか,暗号解読などをやっているNSAなどは 使っているスパコンの規模は国家機密なので出さないという例はあり,どうしようもないと言ったところです。

2.SC12でのGordon Bell賞は筑波大-東工大チームが受賞

  スパコンの使った成果を競うGordon Bell賞ですが,今年は激戦で,人の心臓モデルに対する薬による不整脈の発生をシミュレートした論文と,宇宙の成り立ちをN体問題で解いて,ダークマターやダークエネルギーに迫るという論文が,Top500 2位のSequoiaを使い,前者は11.84PFlopsと後者は13.94PFlopsと高い性能を出しました。これに対して,筑波大の石山,似鳥氏,東工大の牧野教授のグループは,やはり,N体問題で宇宙の発展を解くという論文で,京スパコンを使って5.67PFlopsという結果で,数字の上では,前の2つの論文に及びません。

 しかし,SequoiaのN体問題の論文では,1粒子あたりの計算時間が66psであるのに対して,京の論文では,この時間が25psと2.4倍速いという結果になっています。つまり,京の論文の方が1粒子あたりのFlops計算量が少ない,良い解法であると言えます。

 これを審査委員会がどう判定するかが注目されたのですが,結局,筑波大-東工大のチームの論文がGordon Bell賞を受賞しました。前述のように,Flops値では3番目だったのですが,解法の良さが評価されたようです。

 昨年のSC11では理研がGordon Bell最高性能賞,東工大がGordon Bell特別成果賞とHonarable Mention(奨励賞)をとっており,今年の受賞で,連勝です。なお,今回は最高性能賞だけで,その他の賞やHonorable Mentionは該当なしでした。

3.IntelがメニーコアのXeon Phiプロセサを製品発表

  2012年11月12日にIntelは,Xeon Phiを製品発表しました。ただし,出荷は来年1月からとなっています。製品はXeon Phi 5100系と3100系の2系統になっています。Xeon Phi 5110Pはハイエンド製品で,60コアで,1.053GHzのクロックで動作します。倍精度浮動小数点演算のピーク性能は1.011TFlopsで,なんとか1TFlopsを超えるように,コア数とクロックを決めたようです。

  半導体プロセスは22nmで,チップ写真を見る限りでは,チップの搭載コア数は62で,2個の不良を許容して歩留りを上げて,製品化しているようです。

  Xeon PhiはTop500 7位のStampedeなどに使われているのですが,こちらはSE(Special Edition)のSE10Pというもので,61コア,1.1GHzクロックとなっています。また,8個のGDDR5 DRAMを搭載し,メモリバス速度は5110Pは5GHz,SE10Pは5.5GHzとなっています。ただし,5110Pの消費電力は225Wですが,SE10Pは300Wとなっています。

  なお,最後のPはPassiveの意味で,サーバ側のファンで冷やすもので,Xが付いている製品はPCなどにも搭載できるファン搭載のボードです。

  3100シリーズはPとXが出ることは発表されましたが,コア数は来年1月の製品発表までお預けとのことです。しかし,SC12の会場では57コアと53コアという噂が聞こえました。3100シリーズはメモリバスは5GHzで5110と同じですが,GDDR5 DRAMは6個で,その分,容量,バンド幅が減ります。けれども,消費電力は5110Pより大きい300Wとなっています。出来の良いチップは5110に廻し,不良コアが多い,消費電力が大きいなどのチップを3100として売るという方針でしょう。

  お値段は5110Pが$2650で,3100は$2000以下と発表されています。

4.NVIDIAがK20Xを発表

  2012年11月12日にNVIDIAは,Top500 1位のTitanにNVIDIAのK20X GPUが使われていることを発表しました。K20は2496CUDAコアであったのに対して,K20Xは2688CUDAコアとなり,15個チップに搭載されているSMXの内の14個を生かしています。結果として,K20と比べると,ピーク演算性能が1.17→1.31TFlops,メモリ容量が5→6GB,メモリバンド幅が208→250GB/sと改善されています。

  倍精度浮動小数点演算性能は1.31TFlopsで,IntelのSE10Pを約20%上回っていますが,GDDR5 DRAMは6GBで,メモリバンド幅も,5110Pが320GB/s(SE10は352GB/s)に対して,K20Xは250GB/sでちょっと見劣りがします。

5.CrayがApproの買収を発表

  2012年11月9日にCrayはAppro社の買収を発表しました。Appro社は,日本でも,筑波大のT2KシステムやHA-PACSシステムを納入しており,Top100のシステムの提供者としては3位という位置にあるクラスタスパコンの 有力メーカーです。Crayとしては,これまでのスパコンに加えて,伸びの著しいクラスタスパコンのビジネスを買収することにより,広いスパコンニーズに応えられるようにしようという意図のようです。

  買収価格は約$25Mとのことで,約90人のApproの社員はCrayの社員となり,Approのクラスタ製品はCrayブランドで販売されることになるとのことです。

 

 

inserted by FC2 system