最近の話題 2011年11月5日

1.「京」コンピュータが10.51PFlopsを達成

  2011年11月3日のマイコミジャーナルが「京」コンピュータのLINPACKで10PFlops超えを報じています。

  従来,理研は800筐体以上という表現で,ピーク性能をぼかしていたのですが,今回は,フルシステムは864筐体であることを明らかにしました。つまり,7月2日の話題で書いたのは正しかったということです。そして計算ノード(CPU)数は88,182となっていますので,筐体あたり102CPUです。これは96計算ノード と6個のIOノードも計算に使った測定ということです。

  この構成でピーク性能は11.28PFlopsで,LINPACKは10.51PFlopsを出しています。ピークに対する比率は93.2%で,6月の672筐体の測定より0.2%アップしています。これは,計算ノードが増えてメモリが増え,処理できる行列サイズが約10%大きくなったのが主因とのことです。なお,行列サイズは11,870,208元とのことです。

  行列サイズの増加で計算量が増える効果と,計算ノード数が増えて処理能力が上がった分のバランスで,処理時間は29時間28分と,6月の時の28時間から5%ほど長くなっています。

  そして,消費電力は13MWだそうです。これは6月のシステムの9.9MWから約30%増です。ただし,この電力はLINPACK測定時のもので,CPUはフルにパワーを喰いますが,ファイルなどは殆ど動かす必要がないので, その電力はカウントされていない可能性があります。

  BlueWatersがこけて,米国の10PFlops以上のプロジェクトは2012年にならないと出てこないし,中国も次の話題で紹介する国産1PFlopsというダークホースは出てきたものの,天河1Aを超えるものはHPC-China 2011でも出てきませんでした。ロシアもヨーロッパも10PFlops以上のシステムという話は聞かないので,かなりの確率で,11月中頃に発表される次回のTop500でも京が1位になると予想されます。

2.中国が自主プロセサで1PFlopsマシンを完成

  2010年10月28日のNYTimesが自主開発のプロセサで約1PFlopsを達成と報じています。このシステムはSunway BlueLight(神威藍光) MPPという名称で,中国で開発されたShenWei(申威) SW1600マイクロプロセサを8700個使用しているとのことです。

    小柳先生のHPC-China 2011の出席報告では,プロセサ数は8704個,ピーク性能は1.0706PFlopsとなっています。そして,持続性能(LINPACKのことか?)は0.796PFlopsで,ピーク比は74.4%で,741GFlops/Wとなっています。ただし,この測定は8575チップの測定で129チップは余っています。8575が本当に正しいとすると25×343で行列のPQの分割としてはあまり良くないように思います。8704ならば,64×136,あるいは68×128で,まあ, あまり細長くない構成になるのですが…

  小柳先生にると,16コア,クロックは0.975-1.1 GHz,SIMDがコア当たり8浮動小数演算イシューで,チップ当たり124.8-140.8 GFとのことです。消費電力は43.7Wと京のSPARC64 [fxの58Wより小さいのですが,その他の部分で電力を食っているのか,システムとしてのFlops/Wでは京より多少低い値になっています。また,小柳先生はLINPACKの測定時にはもっと消費電力が多い可能性もあると書かれています。

  半導体プロセスは65nmとのことですが,ファブがどこであるのかは不明です。また,水冷を採用しており,冷却水の温度は入りが8℃,出が13℃とのことで,「京」より5〜6℃低い水をつかっています。温度は低い方が良いのですが,空調でかなり湿度を下げないと結露してしまうのが問題です。

  インタコネクトはInfiniBandの2段スイッチのFat Treeとのことです。

  ShenWeiという名称は,中国のICTのGodsonとは違うし,Tianhe-1Aに使われたFT1000(飛騰)とも違う名称で,別個の第3のプロセサ開発ということになります。まあ,中国は人口も多いし,重要プロジェクトとして国家が予算を付ければスパコン用プロセサを2〜3種作ることができるのでしょうね。 小柳先生のレポートでは1996年に神威Tというスパコンが作られているので,そのグループの開発でしょうか。

  いずれにしても自主開発のプロセサでPFlopsマシンを作るというのは大したもので,中国の実力の急速な向上を感じさせられます。

3.AMCCのARMv8プロセサX-Gene

  2011年10月28日のThe RegisterがAMCCのARMv8アーキのX-Geneチップについて報じています。

  その中にブロックダイヤの図があるのですが,もともと詳細なブロックダイヤが書いてあった図に,CPU Complexなどという箱で覆って中身が見えないように書換えられています。しかし,ある程度透過する塗り方の箱なので,下の絵が多少透けて見えます。

  それを何とか読むと,CPU Complexの中には2.5GHz ARMv8と書かれたコアが2個入ったブロックが4枚書かれています。そして,4chのDDR3があります。ということで,この図では8コアということになるのですが,The Registerの報じられているチップ写真では2コアにように見えるので,最大8コアまで視野に入っているが,最初の製品は2コアではないかと思われます。そして,この2コア×4枚の横に8MB L3と書かれており,コア群とL3$とメモリコントローラがキャッシュコヒーレントなバスで繋がれています。

  2コアの基本ブロックですが,L1$はコアごとに存在し,L2$は2コアに共通という絵になっています。

  IO InterfaceはSATA Gen3,SAS,USB3.0とPCIE3.0と書かれています。そして,IO Cacheを持ち,IOの仮想化に対応しています。

  そして,multi-SLIMと呼ぶ,リコンフィギュア可能な高速なアクセレレータとネットワークのアクセラレータがついており,2コアブロック内のバスとチップ全体のバスを外部とつなぐ1Tb/sのチップ間インタフェースを持っています。記事ではこのリンクを使って2コアから128コアまでのキャッシュコヒーレントなサーバが作れると書かれており,8コアのチップが16個まで接続できる感じです。

  ということで,全体の作りとしては,AMCCお得意のネットワークプロセサですが,マルチソケットのサーバにも使えそうな作りで,かなり強力なサーバが作れそうです。

  各コアの電力はアイドル時には0.5W以下でアクティブ時の電力は2W程度と書かれていますが,4イシューのOut-of-Orderコアで2.5GHzとか3GHzで動かして2Wは楽観的な感じがします。

  これまでARMプロセサはXeonなどと比べると簡単な作りで,シリコン面積が小さい,クロックが低いなどの点から低消費電力でしたが,4イシューのOut-of-Orderという構造でIntelのCore 2やAMDのBulldozerコアに比べて大幅に低電力になる理由は無いと思われます。また,1Tb/sのリンクといっても,128コアでキャッシュコヒーレンシを実現するとなるとどの程度の性能になるのか懸念があります。

  AMCCはTSMCの40nmプロセスでチップを開発しており,2012年の後半には出てくる予定とのことです。また,その後は28nmにシュリンク(多分,コア数を増加)する予定です。

4.Calxedaのサーバ用4コアARM Cortex-A9チップ

  2011年11月1日にCalxedaは,ECX-1000というARM  Cortex-A9の4コアチップと,それを4個搭載するボードを発表しました。また,2011年11月3日のSemiAccurateがCalxedaの発表を報じています。

  Cortex-A9コアのクロックは1.1〜1.4GHzで,NEON,FPU,TrustZoneなどもサポートしています。そして,各コアは別の電源系統となっており不要なコアの電力を切ることができるようです。そして,各コアは32KB+32KBの1次キャッシュを持ち,チップは4コア共通の4MBのECC付の2次キャッシュを持っています。

  Energy Coreと呼ぶECX-1000チップは,この4コアのCortex-A9にECC付のDDR3/DDR3Lのメモリコントローラを集積し,メモリコントローラは800/1066/1333MT/sの転送速度をサポートしています。一般的にARMを使う製品はECCをサポートしていないのですが,ECX-1000はサーバ用なので2次キャッシュとDRAMにはECCが付けられています。

  ECX-1000はIOコントローラ,ファブリックスイッチ,マネジメントエンジンを集積しており,IOはPCIe2.0を4チャネル持ち,合計でx16のバンド幅を分割して使用できます。また,3GbpsのSATAで最大5本のHDDをサポートできます。そして,ネットワークは最大5本の10GbのXAUIポートが出せます。

  特徴のその1は,ECC付の2次キャッシュとDRAMですが,その2は,専用の小さなプロセサを持つサーバ管理用のマネジメントエンジンを搭載している点で,これを使ってリモートコンソールや,リモートブートなどが出来,多数のサーバの集中管理ができるようになっている点です。

  特徴その3は,ファブリックスイッチで8x8のクロスバを持ち,最大5本の10Gbのチップ外へのインタフェースと3本の内向けの10Gbのインタフェースをサポートしています。この5本の外向けのリンクを使ってチップ間を接続できるのですが,そのトポロジは自由に設定することが出来る点です。用途に応じて,リングやメッシュにしても良いし,小規模なら直接の完全接続にすることもでき,トポロジを決めたら,Calxedaのツールでルーティングテーブルを作り,チップ上のFlashに焼き付けるとのことです。最大サポートノード数は4096です。

  そして,このリンクを使うチップ間の通信レーテンシは200ns程度となっています。プロセサコアからはEthernetのポートに見え,ソフトウエア的にはリンクのトポロジを意識することなく,単純にEthernetで繋がっているように使えるようです。

  ECX-1000に1枚のDIMMが付いた構成での消費電力は約5Wで,4チップを搭載したEnergy Cardの消費電力(Type)は25Wとなっています。そしてEnergy CardはロープロファイルのPCIカードで,2Uのシャシーに搭載できます。

  また,2011年11月1日にHPは,Project Moonshotと呼ぶ将来のサーバ技術の開発プロジェクトのなかで,Redstoneサーバ開発プラットフォームという超低電力のサーバプラットフォームを開発しており,その第1号にCalxedaのEnergy Coreを使うと発表しました。また,将来のRedstoneにはAtomベースのものも出てくると書かれており,どれが製品に結びつくかは分かりません。

  SemiAccurateにはHPのRedstoneプラットフォームの写真があり,Energy Cardが6枚×3段に搭載されています。これで18×4=72チップ,288コアのサーバになります。

inserted by FC2 system