最近の話題 2013年7月20日

1.Tianhe-2の構成と写真

  2013年7月15日のThe Registerが,Top500で1位となったTianhe-2のノードやスイッチボードの写真を載せています。

  天河2号の計算ノードは12コアのXeon E5-2692 2ソケットとIntelのXeon Phi 31SP1 3台から構成されており,保守のために分離される2枚のプリント板の一方に,Xeon 4個と独自開発のインタコネクトのARCH-2に接続するLSI 2個,そしてXeon Phi 1台が載り,もう一方にはXeon Phi 5台が搭載されています。

  Intelからの発表は無いのですが,WCCFTechの報じるリークスライドによれば,PCIe3.0のレーン数はSandy Bridgeと同じ40レーンとなっています。1個のXeonからXeon Phi 2台で32レーン,もう一個のXeonは16レーンでXeon Phi 1台を接続すると考えられます。

  ARCH-2はPCIe2.0にしか対応していないので,半分の速度でつながっているとのことです。ARCH-2のインタコネクト側は10Gbpsあるいは14Gbpsで×8と書かれて おり,これが片方向の伝送速度とすると,0.5GB/sのPCIe2.0でこのバンド幅にマッチさせるにはx16でも多少不足ですが,まあ,インタコネクト側もプロトコルオーバヘッドがあるので,x16ならまあまあというところではないでしょうか。とすると,ARCH-2は,Xeon Phi 1台の方のXeonにx16で接続されていると考えられます。Xeonの残りの8+8レーンは管理用のEthernetとかローカルのディスクなどを繋ぐのに使っている (または,空き)と思われます。

 スイッチバックプレーンの写真が掲載されており,12×12で144個のソケットが搭載されています。The Registerの記事には両面にポートがあると書かれているのですが,両面にコネクタがついてバックプレーンというのは変で,ミッドプレーンでしょう。

 その次にSwitch RSW Bladeというボードの写真があります。2個の銅色のフィンがついたLSIが搭載されており,これがスイッチLSIと思われます。そして,スイッチバックプレーン (ミッドプレーン)に差し込めそうなコネクタがついています。

  次に掲載されているスライドの右端の絵は直交する向きにボードが挿されており,これで144ポートのクロスバを構成していると思われます。ただし,144はコネクタの数で,各コネクタに4ポート分の信号が入っていれば,スパインスイッチの576ポートのクロスバとなります。

  計算ノードは125筐体で16000ノードを収容しているので,筐体あたり128ノードとなります。ペアボードで2ノード,それが筐体の裏表にあるので,片側に32ペアボードがあれば良く,写真によれば1U程度の厚みなので,収容は可能と思われます。

  また,この128ノード間を繋ぎ,576ポートのスパインスイッチと繋ぐインタコネクトが必要で,これがスライドの中央のスイッチボードの絵であると思われます。

  そして,記事には,Switch LSW Bladeというボードの写真が載っています。このボードにはRSWブレードに2個搭載されているLSIが6個搭載され,前面側には光モジュールと思しきものが並んでいます。短距離の接続は電気ケーブル,長距離の接続は光ファイバを使うので,長距離の接続に使うモジュールと思われます 。

  LSWのLはLocal,RSWのRはRemoteでしょうか?LSW BladeにスイッチLSIが6個で,1筐体の128ノードを接続し,RSWに128ポートを接続するとすると,1個のスイッチチップで40ポート余りのクロスバという計算になり,まあ,適当なサイズです。しかしスライドの中央の絵が正しいとすると,1枚ではなく,複数枚でローカルのリーフスイッチを構成しているようです。

2.東工大がTSUBAME2.0のアップグレード計画を発表

  2013年7月17日のマイナビが,東工大のTSUBAMEの2.0から2.5へのアップグレートの発表を報じています。それによると,現在はTop500 21位で倍精度のピーク演算性能が2.288PFlopsのTSUBAME2.0を,今年秋に増強し,倍精度のピーク演算性能を5.7PFlops,単精度のピーク演算性能を17PFlopsまで引き上げるとのことです。

  LINPACKではピーク比65%程度の性能とみると,約3.7PFlopsとなり,6月のTop500リストで9位といったところで,11月にTop10に入れるかどうかといったところです。一方,国内のシステムでは京スパコンについで2位は間違いないところでしょう。それから,京のSPARC64 [fxは単精度でも倍精度でも性能は変わらない演算器なので,TSUBAME2.5の17PFlopsという単精度のピーク性能は京を抜いて国内1位となると見られます。東工大はGPU先進ユーザで色々な計算をやって来ていますが,大部分は単精度で計算しても大丈夫というアプリもあり,これらのアプリでは京を抜く場面もでてくると思われます。

  2.5へのアップグレードは,GPUアクセラレータを現在のFermi世代のM2050から,Kepler世代に入れ替えると見られていますが,具体的にどのような構成になるかは,まだ,発表されていません。

3.ISC13でのKluster Kampの結果

  6月にドイツで開催されたISC 13でのStudent Cluster Competitionの結果を,2013年7月11日のThe Registerが報じています。出場校は,以下の9校で,地元ドイツが2校,アメリカが2校,中国が2校と,英国,南アフリカとコスタリカが各1校という顔ぶれです。

  結果は,LINPACKでは,中国のHuazhong(華中)科技大が8,455TFlopsで1位,2位が英国のエジンバラ大で8.321TFlops,3位が 中国の清華大の8.132TFlopsで,昨年のISC 12でのトップが2.561TFlopsであったのと比べると,3倍以上のスコアとなっています。

  課題として出されていたWRF,GROMACS,MILCという3種の科学技術計算アプリとサプライズで会場で出されたAMGとCP2Kを含めた総合成績では,ダークホースの南アフリカのCHPCが優勝しました。そして,ディフェンディングチャンピオンの清華大は僅差で2位に終わりました。

  それから,7月10日のThe Registerが,各チームのクラスタの構成と勝因の分析を載せています。今回はStudent Clusterの歴史で初めて全チームがアクセラレータを搭載したとのことです。しかし,チームにより,アクセラレータの台数,CPUコア数,メモリ量などに違いがあり,1位,2位のチームはコア数が多いシステムとなっています。しかし,清華大は大量のメモリを搭載しているのに対して,南アフリカチームは比較的少ないメモリでも性能を出しているというように, 何が効くかは単純ではありません。

 

inserted by FC2 system