最近の話題 2010年3月13日
1.次世代スパコンのソフト環境
情報処理学会の創立50周年記念全国大会の付設で,2010年3月12日に次世代スパコンに関するフォーラムが開かれました。そして,理研の横川,南氏,富士通の井上,堀田氏から次世代スパコンを紹介する発表が行われました。
事業仕分けの結果,前倒し完成の予算分を削減することになったので,LINPACK 1PFlopsの登録予定は2012年6月となり,米国の計画と比べると,相手がコケないかぎり世界一にはなれません。しかし,LINPACKトップが重要ではなく,実アプリでどのような性能が出せ,科学技術の発展にどれだけ貢献できるかが重要ですから,これからのアプリ開発や実運用で頑張ることが肝心です。
ハードウェアに関しては,昨年のHotChipsでのCPUの発表やSCでの筺体やインタコネクト模型の展示などでかなり明らかになっていたのですが,今回は,ソフトウェア関係で色々と新しい情報が出てきました。
まず,OSですがLinuxベースとのことで,CPUはSPARCですがSolarisは使いません。そしてコンパイラとしてはFortranとC,C++,そしてXPFortranが提供されるとのことです。そして,10万ノード級のシステムの通信にはMPIが提供されます。XPFortran記述からMPIベースに変換するトランスレータが提供され,これでMPIプログラムにすると,他のMPIを使うモジュールとも結合してプログラムを作れるということで,自由度が広がっています。しかし,世界的に見るとXPFは過去の言語で,並列プログラミング言語がこれしかないというのは淋しい感じです。
そして,コンパイラは,SPARC64 [fxのSIMDやコア間のハードバリア機構を活用するコードを生成するとのことですが,アプリのチューニングについて発表した理研の南氏は,まだ,機能は十分ではなく,ソースの書き方で工夫をしているということを述べていました。また,SPARC64 [fxは繰り返し使うデータとそうでないデータのキャッシュを分離できるセクターキャッシュという機能を備えていますが,それぞれのデータがどちらのキャッシュを使うかは自動割り付けではなく,ユーザがディレクティブで指定するとのことです。
全体では8〜9万ノード,70万コア程度のシステムで,70万並列のプログラムを書くのは大変ということで,ノード内の8コア分はコンパイラがスレッド並列をサポートし,8〜9万ノード間の並列はMPIでユーザが書く(あるいはHPFのディレクティブ)というハイブリッド並列というモデルがお勧めとのことです。
2.SuperMicroがFusion Render Cloudを商品化
AMDのCPUとGPUを使うRender CloudをSupermicroが商品化すると2010年3月11日のThe Registerが報じています。
昨年のCESでAMDはOtoy社との共同開発したRender Farmを見せたのですが,今回の製品もSuperMicroとOtoyの共同開発となっています。ハード的には昨年のシステムより新しくなり,2ソケットのOpteronサーバ125台に500台のRadeon HD5970を搭載することができます。
CPUとして12コアのMagny-Coursを搭載すると合計3000コアで,2.2GHzクロックのCPUを使えば26.4TFlopsとなります。そしてHD5970はDPで928GFlopsなので,全体では464TFlops。CPUとGPUの合計では490.4TFlopsとなり,SPなら2.3PFlopsを超えます。
これでHDのストリーム3000本を並列処理でき,SDならば12000ストリームを処理できるそうです。ということで,サーバ側でゲームを動かし,レンダリングを行ってビデオでゲームユーザとつなぐという使い方が可能になるとしています。
これで設置面積は40ft2,消費電力は約100KW,お値段は公表されていませんが,The Registerはハードの値段は$2M程度と推定しています。
中国の天河一号もこんな感じのマシンで,天河一号と同様にLINPACKがピークの半分しか出ないとしても,今の日本ではトップクラスのスパコンになります。
3.フロリダ州立大が3LeafのVirtual SMPを導入
2010年3月10日のHPCwireが,フロリダ州立大の3Leaf社の仮想SMPシステムの導入を報じています。3Leaf社のシステムについては2009年11月7日の話題で紹介していますが,2ソケットのOpteronサーバを接続して大きな共通メモリ空間を持つSMPシステムに見せるというもので,同業のScaleMPの製品とは異なり,キャッシュコヒーレンシを司る自社開発のASICを使っています。
フロリダ州立大のシステムはCPUとして6コアのIstanbulを使い,サーバ12台(合計144コア)がQDRぼInfiniBandで接続されたシステムで,総メモリ量は576GBです。ユーザはCPUコア数と必要なメモリ量を指定してジョブを投入します。ユーザに解放されている138コア全部を使うジョブもあるが,大半は44〜128コアとのことです。
ユーザの反応は,こういうシステムがもっと欲しいというもので,同大学では,3Leafがサポートする最大規模である192コアへの拡張を考えているとのことです。具体的なデータは書かれていませんが,この手のSMPも結構,使えるようです。