最近の話題 2009年11月7日

1.中国国防科技大学校がピーク1.2PFlopsの天河一号スパコンを完成

  2009年10月29日に新華社ネットが,中国の国防科技大学校がピーク性能1.206PFlopsの天河 (Tianhe)一号スパコンを開発し,Linpackで563.1TFlopsを達成したと報じています。Top500に申請したと書かれていますので,11月17日にSC09で発表される次回のTop500でトップ10に登場する筈です。

  このシステムは,6144個のIntel CPUと5120個のAMD GPUを使用し,103本の筺体で構成されると書かれています。とするとGPU 1個の性能は200GFlops強で,性能的にも時期的にも最新のHD5800ではなく,前世代のHD4800シリーズのGPUを使用していると思われます。

  ピーク性能に対するLinpack性能の比率は46.7%で,CELLプロセサを使うRoadrunnerの75.9%と比べると,かなり低くなっています。しかし,Grape-DRの26.0%よりはかなり高い比率を実現しています。

  建造費は6億元(約80億円)で,天津スパコンセンターに設置されるそうです。

2.Green500が対象を拡大

  Green500は,Top500にランクインされたスパコンのエネルギー効率(Linpack Flops/消費電力)のランキングを発表していたのですが,2009年11月のランキングでは,これに加えてOpen Green500とHPCC Green500というリストを作ると2009年11月5日のHPC Wireが報じています。

  x86のSSE3などでは,倍精度に比べて単精度の浮動小数点計算の性能は2倍で,GPUの場合は,これよりも性能の比が大きいこともあり,単精度で問題を解き,倍精度で誤差を計算して,誤差分に対して再度,単精度で問題を解いて,最初の解を補正するというほうが高い性能が得られるのが普通です。Linpackは倍精度で計算するというルールなので,Top500では,この解法は認めれらないのですが,Open Green500は,この解法を認めたランキングを行おうというものだそうです。

  そして,Linpackはスパコン性能の一面しか測定しておらず,Top500はあまりに偏ったランキングという批判は以前からあり,より多面的な性能指標としてHPC Challengeが開発されました。HPCC Green500は,HPCC性能と消費電力の比でランキングを行うリストのようです。しかし,HPCCは7つのプログラムカテゴリの測定で,表彰が行われるものだけでもG-HPL,G-RandomAccess,EP-Stream,G-FFTと4種の測定があります。大多数の人が納得する形で,これらの数値を一つにまとめることはできないので,それぞれの測定ごとにエネルギー効率の良いシステムのリストを作るのでしょうかね。

  また,Green500はTop500に入ったシステムだけという縛りがあるのですが,これら2つの新しいリストは,少なくとも今は,このような縛りがないので,性能は市販のPCと同程度だけど,消費電力は圧倒的に小さいというようなシステムもランキングされるのでしょうかね。

3.NVIDIAはx86 CPUを開発するのか?

  2009年11月3日のEE TimesがNVIDIAはx86 CPUを開発するか?という記事を載せています。NVIDIAはFSBを使うIntel CPUのチップセットを開発,販売しているのですが,Nehalem系のDMIを使うチップセットに関しては,DMIがライセンス契約に含まれるかどうかでIntelと係争中です。また,AMDはFusionの名のもとにCPUとGPUの融合を進め,Intelも同様の方向を目指しており,アドオングラフィックスの雄のNVIDIAも安閑とはしていられません。ということで,3月7日の話題でも紹介したように,NVIDIAのx86 CPU開発の噂は常にあります。

  今回,EE Timesが報じたのもその延長線ですが,NVIDIAが,x86互換チップを開発していたTransmetaの従業員を秘密裏に採用しているというのを推測の根拠にしています。Transmetaの設計はチップ自体はx86互換ではないVLIWプロセサで,Code Morphingと呼ぶバイナリトランスレーション技術でx86互換を実現するもので,Intelのx86 CPUの特許を回避して互換CPUを開発するという観点からは元Transmetaの技術の利用とエンジニアの採用は妥当なアプローチです。

  しかし,個人的見解ですが,NVIDIAのx86 CPU+GPUがIntelのソリューションに対して,ハイエンドグラフィックスを必要とする一部のニッチマーケットを別とすれば,勝ち目があるとは思えません。IONのようにARMプロセサとGPUを組み合わせて,モバイル機器向けのマーケットでメジャーになるという戦略に集中するほうが良いのではないかと思います。

4.VIA社がNano 3000シリーズプロセサを発表

  2009年11月3日にVIA社はNano 3000シリーズのプロセサを発表しました。アーキテクチャは同社のC7プロセサ以降で採用されているIsaiahアーキのプロセサですが,Nano 3000では,SSE4のサポートし,Windows 7に完全互換を謳っています。なお,使用半導体プロセスは65nmで,量産は2010年1Qからとなっています。

  製品としては2GHzクロックのL3100,1.8GHzクロックのL3050,そして1.4GHzのU3200,1.3+GHzのU3100,1.2GHzのU3300,1GHzのU3500の6品種です。しかし,何故,Lの方がクロックが高く,Uの中では数字の順と速度の順が一致しないという訳の分からない命名になっているのでしょうね。FSBは全て800MHzで,アイドル時の消費電力はLの2種は500mW,Uは100mWで,動作時のTDPは公表されていません。

  前世代のNano 2000に比べて,クロックは20%高く,消費電力は20%低いと述べられています。また,IntelのAtomと同じ1.6GHzクロックで動作させた場合,PCmark05でのCPUパフォーマンス値は43%高いそうです。

5.3Leaf社とScaleMP社のSMPプロダクト

  小さなジョブを多数処理するWebサーバなどでは,小さなサーバを多数使用するPCクラスタに,ジョブの振り分けを行うロードバランサがあれば良いのですが,巨大なメモリ領域を使用する処理を多数のサーバに分担させるのは,それが可能としても,プログラムを工夫する必要があり,手間がかかります。従って,このような場合には,大きな共通メモリ空間をもつSMPサーバが欲しくなります。

  2009年11月3日のThe Registerが3Leaf社のDynamic Data Center Serverについて報じています。SuperMicro製のマザーボードは3個のOpteron用のソケットを持ち,2個のソケットには,4コアShanghai,あるいは6コアIstanbul,そして将来は12コアのMagny-Coursを搭載し,残るソケットに3Leaf社の開発したASICを入れます。そして,このASICを経由して16枚のマザーボードを結合した共通メモリシステムを構成できるというものです。多分,このASICがディレクトリベースのコヒーレンシ制御を行っているのでしょう。そして,同社のHypervisorが載っており,その上でLinuxやWindows Serverがそのままで動くそうです。

  6コアIstanbulの場合,最大構成では192コア,4GB DIMMを使うと1TBの共通メモリ空間が作れます。96コア,256GBメモリのシステムで$99,000,192コア1TBのシステムは$250,000とのことで,大型Unixサーバに比べると大幅にお買い得というのが売りです。また,現在の製品はHyperTransportを用いるものですが,QPI製品も開発中とのことです。

  2009年11月4日のHPC WireがScaleMP社の2種の新しいVirtual SMP製品について報じています。ScaleMP社の製品は3Leafとは異なり,ハードウェアには全く手を入れず,ソフトだけで共通メモリ空間を実現します。一つはクラウド向けの製品で,従来の製品はブート時に構成を決めるとそれ以降変更が出来なかったのですが,この製品は,動作中にサーバをSMP接続したり,切り離したりを動的に切り換えることができるようになっています。

  クラウド向けの製品は最大16ノードの接続ができ,マネジメントノードが$65,000,追加のノードが$650というお値段で,ハードの値段を加えると,3Leafの製品とあまり違わないお値段になりそうです。

  もう一つの新製品はローエンド向けで,最大4台のサーバをInfiniBandなどのスイッチなしでケーブルで直結するハードウェアシステムをSMPに見せるという製品です。従来は2台までだったのを今回は4台に拡張しています。

  同社の社長は,8ソケットのOpteronマシンで,SunやHPのハード的なSMPと比較して30%〜500%性能が高いと述べています。ハード的なSMPは,規模が大きくなると各プロセサからメモリへの距離が長くなるので,8ソケットは2ソケットに比べて多少遅くなりますが,それでもこの数字はちょっと眉つばで,特別なケースだと思います。また,あちこちのメモリを頻繁にアクセスする用途では,3Leafのシステムと比べても性能的には不利ではないでしょうか?しかし,キャッシュがうまく効くようなアクセスパターンのアプリケーションならばうまく動くと思います。

inserted by FC2 system