最近の話題 2011年8月20日

最近の話題 2011年8月20日

１．IBMのBlue Gene/Qはトランザクションメモリをサポート

　　2011年8月19日のEETimesが，IBMのBlue Gene/Qプロセサはトランザクションメモリをサポートすると報じています。

　　8月18日のHot Chips 23で，IBMはBlue Gene/Qプロセサを発表しました。昨年11月のSCで計算ノードが展示されていましたが，プロセサに関する学会発表はこれが初めてです。半導体プロセスはCu-45で，45nmのSOIプロセスです。チップサイズは360mm2で，ほぼ19mm角となっています。ここに18個のPowerENコアとeDRAMで構成される32MBのL2$を集積しています。総トランジスタ数は1.47Bとなっています。

　　PowerENコアはISSCCで発表された通信用プロセサに使われているコアですが，このコアにFMADを4つ実行するようにして浮動小数点演算能力を強化しています。クロックは1.6GHzで，18コアのうちの16個が計算用なので，全体では204.8GFlopsのピーク演算能力となっています。素晴らしいのは，電源を0.8Vで動かしていることで，これにより55Wと低い電力となっています。

　　また，IBMのお得意のeDRAMを使うことにより32MBという大容量のL2$が搭載できており，これも高性能化に効きます。また，10ポートのインタコネクトを同一チップに内蔵しており，これは「京」のICCとほぼ同じ機能です。さらに，1333MHzのDDR3のメモリインタフェースを2CH持ち，16GB/sのメモリバンド幅となっています。

　　つまり，「京」のSPARC64 ⅧfxとICCを1チップに集積し，両方の合計の2/3位の電力で1.6倍の浮動小数点演算性能となっています。ただし，各リンクのバンド幅は2GB/sで5GB/sのICCと比べると低い性能ですし，メモリ性能もSPARC64 Ⅷfxの劣るということで，「京」と比べると，演算リッチですが，メモリや通信バンド幅はプアというバランスになっています。

　　この32MBのL2$ですが，Multi-Versioned Cacheと書かれており，複数の版の同じアドレスのデータを格納できるようになっているそうです。これを使うと，トランザクションメモリの中間処理結果をL2$に書き込んでも，他のプロセサは以前の版を参照させれば，中間結果はローカルなデータになります。そして，トランザクションが完了したら，古い版を廃棄して，中間結果を書いた版を最新にするというような使い方が可能になります。ということでロックを使わないで並列処理ができるので，並列プログラムを作る負担が減ることは確かですが，チップ内の17コアの範囲なので，全体としてどのくらいの効果があるのでしょうね。

　　このチップは18コアを搭載しているのですが，16コアが計算用で，1コアはOS処理用となっています。スパコンでは全部のコアの結果が揃ってから，次の処理に入る必要があるというケースは良くありますが，このようにすると1個のコアだけが遅くなっても，その他のコアもそれを待ち合わせるので全部が遅くなってしまうという問題があります。OS用のコアを設けると，デーモンなどの処理で一つの計算用コアが遅くなるということが無くなり，処理が安定します。残りの1コアはスペアで，18コア中の17個が生きていれば良品にできるので，歩留りが大きく改善すると述べていました。

２．米国の10～20PFlops計画は大丈夫か？

　　8月15日のマイコミジャーナルに「Blue Watersがこけても問題なし - 次世代機の開発が進む米国のスパコン事情」という記事を書いたのですが，Hot ChipsでのBG/Qの発表を聞いて少し心配になりました。BG/Qは技術的には素晴らしいのですが，結論で述べられたのが，昨年11月のGreen500で試作機がトップになったということと，移植アプリの規模の拡大を行っているという程度の発表で，近々，20PFlopsのSequoiaが動くという勢いが感じられませんでした。

　　また，某T大のH教授からAlan Gaｒa氏がIBMを辞めてIntelに移ったという話を教えて戴き，更に心配になりました。Alan Gaｒa氏は最初のBG/LからBlue Geneの開発を主導してきたアーキテクトで，昨年11月のCray Awardの受賞講演では，間に合わせのBG/Pに比べて，BG/Qはやりたいことを盛り込んだという意気込みが感じられました。そのGaｒa氏がBG/Qの完成を目前にしてIBMを去るというのはきな臭いものを感じます。これ以上の情報はなく，単なる勘繰りですが，BG/Qプロジェクトに何か問題が発生しており，Gaｒa氏の辞任につながったという見方もできます。

　　2008年に公開されたSequoia計画のスライドでは2010/2011にSequoiaはできているという計画で，これに比べると遅れているのは確かです。まあ，今年の11月のSCでどのような発表や展示がなされるのかが見ものです。

　　Sequoiaと並び20PFlopsを目指すのが，オークリッジのTitanです。Titanは骨格はCrayのXK6で，既に出荷が開始されているので，これは大丈夫としても，CPUはAMDの16コア Interlagosで，GPUはnVIDIAの次世代のKeplerです。うまく行かないとは決めつけられませんが，InterlagosもKeplerもまだ，製品が無いので遅れる恐れはあります。

　　また，先週の話題で紹介したように，CrayのSteve Scott CTOもCascadeの開発完了を待たずに辞めて，nVIDIAに移るわけですが，こちらは貧乏なCrayよりずっと良い条件を出してnVIDIAが引き抜いたという感じがします。

３．OracleがT4プロセサを発表

　　2011年8月19日のHot Chipsのサーバセッションで，OracleがT4を発表しました。Niagaraシリーズのマルチコア，マルチスレッドのプロセサの第4世代目となります。

　　TSMCの40nmプロセスを使い，885Mトランジスタとのことですが，チップサイズや消費電力は発表されませんでした。S3と呼ぶ3世代目のコア（3代目のT3プロセサは2代目のS2コアを使っているので数がずれている）を8個搭載し，各コアで8スレッドを並列に処理できるので，全体では64スレッドが並列に動くプロセサになっています。

　　前世代のT3（Rainbow Falls）ではS2コアを16個搭載し，128スレッドだったのですが，T4では各コアのシングルスレッド性能を上げる方向に設計の方針が変わり，64スレッドに減少しています。また，3代目までは，滝シリーズのコード名称があったのですが，今回は単にT4というそっけない名前になっています。

　　コアのクロックは3+GHzとなっており，T3の1.65GHzと比較すると2倍近くクロックがあがっています。そして，各コアが大きくなり，強化された効果を合わせると，S2と比較してS3コアは，SPECint2006で約5倍，SPECfp2006で約7倍に性能が向上していると述べられています。S3は旧Sunの時代も含めて，初めてのOut-of-Orderプロセサとなり，また，分岐予測にPerceptronを取り入れているとのことです。従来の分岐予測に比べてマルチスレッドでもヒット率が高いとのことです。

　　ただし，この性能向上は，シングルスレッド実行時の性能比較で，S3ではスレッドへのリソースの割り当てのフレキシビリティーが高くなっているので，実行しているスレッドが多くのリソースを占有する状態となることで性能が上がっている面があると思われ，全スレッドが動いている状態では，これほどの性能向上は出ないと思われます。とすると，SPECint2006で5倍と言っても，チップあたりのスレッド数は半分ですから，2.5倍になり，更に，全スレッド動作時の低下を考えると，チップとしてのスループットは2倍になるかどうかで，まあ，妥当な感じの数字になります。

　　このアプローチでは並列に実行できない部分の実行性能が上がるので，Amdhalの法則で，全体の処理性能が上がるので，これは良い方向だと思います。しかし，逆に言うとこれまでのTシリーズはシングルスレッド性能はかなり低かったということもできます。それで富士通の作るMシリーズが売れていたという面があるのですが，T4が出ると，この辺に影響する可能性があると思われます。