最近の話題 2010年6月5日

1.2010年6月Top500の発表

  ドレスデンでのISCの開催にあわせてTop500が発表されました。全体的には新しいシステムが少なく,OakridgeのJaguarがトップを維持しました。しかし,第2位に中国の星云(Nebulae;曙光のページではこの云をつかってました)システムが入ったのが目新しいところです。その他の,Top10の新顔は6位になったAltix ICE 8200EXと8400EXを使うNASAのPleiadesシステムと10位になったSunのx6275ブレードを使うSandia国立研のRed Skyシステムです。

  我が国は,JAEA(原研)の富士通製のBX900ブレードシステムが22位,海洋研のNEC製のSX-9の新地球シミュレータシステムが37位,JAXAの富士通製のFX-1クラスタが42位といったところで,500位までにランクインしたシステムは18システムです。

  ちなみに中国は2位と7位とTop10の2システムを含めて,500位までに24システムが入っています。

2.Top500 2位になった中国の星云システム

  今回,Top500で堂々の2位となった星云システムは,曙光のTC3600というブレードサーバシステムです。CPUは,IntelのXeon 5650を使い,それにNVIDIAのC2050を付けたシステムで,ノード間の接続はMellanoxのQDR InfiniBandです。ということで,先週の話題で紹介した東工大のTSUBAME2.0と殆ど同じような感じのシステムです。

  ピーク性能は2.9843PFlopsで,これはJaguarを抜いて世界一ですが,LINPACKは1.271PFlopsでトップのJaguarの1.759PFlopsは及びませんでした。ピーク比では42.6%で,汎用CPUのマシンの半分程度の値です。前回の5位から今回は7位に下がった天川一号も46.7%なのでGPGPU主体のクラスタでは,この程度なのでしょうかね。

  Westmere-EPとTeslaの比率はTop500のデータには書かれていないのですが,このピーク性能値から推測すると2ソケットのブレードにC2050を1台搭載した計算ノードが4640台と考えられます。曙光のTC3600は10Uの筐体に10枚のブレードで,ラックに4筐体を搭載すると116ラックを必要とします。曙光の中国語のホームページに星云システムの写真がありますが,128ラックくらいが並んでいる感じで,InfiniBandのラックなどを考えるとまあ,妥当な本数です。

  筐体には星雲団のような絵が描かれています。我が国のスパコンはあまり絵を書いてないのですが,東工大のセンターなどは狭いので,大きな絵を描いても全体が見える場所がないからでしょうかね。それとも,単に調達仕様に1行,筐体に絵を描くことと入ってないからでしょうか。

3.ISCでIntelがHPCプロセッサを発表

  ドイツのドレスデンで開催されたISCで,Intelのデータセンター部門のGMのKirk Skaugen氏が基調講演を行い,その中でHPC向けのプロセサの開発について述べました。

  Intelは80コアの研究用チップ,そして昨年は48コアのSingle-chip Cloud Computer実験チップを発表しています。また,先週の話題で紹介したように,LarrabeeのGPUとしての発売は断念するがHPC用としては開発を続けるということで,各種のメニーコアプロセサの開発を続けています。

  Skaugen氏は,IntelのHPC向けプロセサをMany Integrated Core(MIC)アーキテクチャと呼んでいます。そして,Knights Ferryと呼ぶ開発者向けの実験ボードを見せ,デモを行いました。そして,2011年か12年には22nmプロセスで50コア以上を集積したKnights Cornerを出すと述べています。また,その先もKnightsシリーズの製品を出すという図を示しています。

  デモを行ったKnights Ferryですが,32コアで8MBのキャッシュを搭載するAubrey Isleというプロセッサを搭載しています。Knights Ferryボードですが,GDDR5メモリで1GB,あるいは2GBのメモリを搭載とのことで,これは発売を断念したLarrabeeボードで,搭載しているAubrey IsleはLarrabeeそのもののようです。まあ,社内の開発コードネームは以前からAubrey Isleだったのかもしれませんが。

  IntelのページにISCでの発表資料やチップ写真などがあります。

  512ビット長のSIMDベクタユニットで,クロックが1.2GHzなので,32コアでのピーク性能は単精度では1.2288GFlops,倍精度では614.4GFlopsで,NVIDIAのC2050よりちょっと上の性能です。昨年11月のSCでのデモでSGEMMで1TFlopsを超えるデモをやり,今回はLU分解で0.5TFlopsを超えるデモを見せました。しかし,LINPACKの核となるLU分解ではピークの40%強の性能です。かなりCPU的な造りなので,もっと出るのではないかと思っていたのですが,ちょっと驚きです。

4.ComputexでAMDがFusionプロセサをデモ

  2010年6月4日のPCWatchに後藤さんがAMDのFusionプロセサの発表に関する記事を載せておられます。デモに使われたのは低電力向けのOntarioのようで,性能が見えるようなデモではなかったようです。そして,高性能のLlanoの方は影も見えず,IntelのSandy Bridge対抗ができるのか懸念されるという状況であったようです。

  筆者が興味があるのは,今回の発表でSIMD Engine Arrayと名付けられたGPGPUとCPUがどのように結合されるかという点ですが,後藤さんの図では,Last Level CacheにCPUコアと同じ位置づけで接続されています。そしてLLCからシステムメモリにつながるという図ですが,メモリバンド幅はどうなるのでしょうかね。容量の点で,まさかGDDRメモリというわけにはいかないのですが,普通のDDR3だとバンド幅が大幅減で,性能が出ないというアプリが多くなるのではないかと心配です。

  また,GPUのデバイスメモリとCPUのメインメモリの空間が統一されるのは望ましい方向ではありますが,GPUは,まだ,ローカルメモリとグローバルメモリという独立空間のメモリを持っていますから,画期的にプログラミングが楽になるという感じでも無い気がします。

 

  

inserted by FC2 system