最近の話題 2011年11月12日

1.富士通が新スパコンPRIMEHPC FX10をを発売

  「京」の10PFlops達成で意気上がる富士通が,2011年11月7日に,「京」の技術をベースとしたPRIMEHPC FX10という新スパコンを発表しました。

  富士通のホワイトペーパーにある程度詳しい情報が載っていますが,端的にいうと,「京」のプロセサのSPARC64 [fxを新開発のSPARC64 \fxに替えただけで,インタコネクトや全体のハードウェア構造は変更なしという感じです。 ただし,写真ではローカルファイルシステムの筐体が無くなっているので,計算ノード筐体に分散搭載するような形になっているのではないかと思われます。

  SPARC64 \fxは16コアとコア数を倍増しています。そして,L2$の容量を12MBに増加しています。クロックは大型のマルチラックモデルは1.848GHz,国内だけの販売のシングルラックモデルは1.65GHzとなっています。そして,1.848GHzのチップでピーク性能は236.5GFlopsで,各コアのFlop/Cycleは[fxから変わっていません。

  SPARC64 \fxは40nm CMOSプロセスを使っており,チップサイズは21.9o×22.1o,消費電力(Type)は110Wとなっています。一昨年のHot Chips21の発表では,SPARC64 [fxは8コア+5MBL2$で22.7o×22.6mmで,クロック2GHzで消費電力は58Wとなっています。コア数とL2$量が倍増+アルファで,チップサイズは約6%小さくなっています。プロセスは45nmから32nmへとシュリンクしたのなら理解できますが,40nmへのシュリンクとしては大幅なチップサイズの縮小です。

  富士通は45nm以降のプロセス開発は行わず,TSMCと提携するという方針発表を行っています。また, 富士通が40nmプロセスを開発したとしても,同じテクノロジの延長では,このような大幅なチップサイズの縮小は考えにくいので,今回のSPARC64 \fxは40nm CMOSプロセスはTSMCのプロセスで ある思われます。とすると,TSMCのプロセスの方が富士通より50%あまり素子密度が高いことになります。一方,消費電力はほぼ物量に比例して倍増しており,シュリンクしたのにエネルギー効率は上がって いません。TSMCのプロセスは素子は詰め込めるけど,電気は喰うという感じです。 あるいはトランジスタのスピードが遅く,1.85GHzで動かすには電圧を上げて電気を喰わせる必要があるのかもしれません。 ただし,次のように,メモリのバンド幅が増えているので,メモリインタフェースでの電力増は割り引いて考える必要があります。

  そして,SPARC64 \fxのメモリバンド幅はピーク値で85GB/sとなっており,前世代の64GB/sから32.8%向上しています。CPUあたりのDIMMの枚数は8枚で変わっていないので,より転送速度の高いDIMMに替え,CPU側のメモリバス速度も向上させていると考えられます。しかし,ピークFlopsは85%増でメモリバンド幅は32.8%増ですから,BF比は0.5Byte/Flopから0.36に低下しています。つまり,演算律速のアプリでは85%性能が上が るけど,メモリバンド幅律速のアプリでは32.8%しか性能が上がらないということになります。

  最大構成を買うお客が出てくるかどうかは疑問ですが,カタログ上の最大構成は1024筐体で23PFlopsと「京」の2倍あまりの演算性能となります。

  お値段はシングルラックモデルで約5000万円よりで,出荷は2012年1月となっています。そして,販売目標は3年間で50システムとのことです。 国内では,京コンピュータのプログラム開発用としてシングルラックモデルはある程度購入されると思いますが,1PFlopsのシステムで50〜70億円とのことで,この値段では ,大規模システムの導入には二の足を踏むユーザが多いのではないでしょうか。

2.NECは次世代ベクトル機を発表

  同じく2011年11月7日にNECは次世代ベクトル機を発表しました。ただし,こちらは製品化は2013〜2014年とのことで, 実機が出てくるのはかなり先の話です。

  CPUにネットワーク制御部やIO制御部を集積した新プロセサを開発し,地球シミュレータ2に使われているSX-9と比べると,消費電力1/10,設置面積1/5を目指すとのことです。また,SXシリーズとしては初めてマルチコアとなり,各コアのベクトル演算器数も倍増し,SX-9から取り入れたソフトウェア制御可能なキャッシュも強化してより使いやすく高性能を引き出せるようにするとのことです。

  CPUコアの性能は64GFlopsでメモリバンド幅は64GB/sと1B/FlopのBF比を目指すとのことです。

  しかし,2013〜2014年となると,富士通は更にFlopsを倍増して512GFlopsレンジになると予想され,これに対抗するには8コアの集積が必要となります。そして,512GB/sのメモリとなるとチップから直接に光のインタフェースを出すというようなことをしないと実現は難しそうです。2コアなら実現は可能,4コアもかなり頑張ればできそうですが,Flopsあたりの単価は富士通のPRIMEHPCより高そうです。GPUアクセラレータやIntelのMICベースのシステムよりFlops単価が高く,中小規模のシステムならIntelのXeonやAMDのOpteronベースのクラスタと価格ベースの競争になるという状況で,なかなか,苦しそうです。

3.NCARが1.6PFlopsのiDataPlexを導入

  2011年11月7日のHPCWireが,National Center for Atmospheric Research (NCAR)がYellowstoneと呼ぶ1.6PFlopsのスパコンをIBMから購入するという発表を報じています。

  計算システムはiDataPlexで,CPUはIntelのSandy Bridge EPで合計74,592コアを使い,ピーク演算性能は1.6PFlopsとのことです。そして,メモリ量は149.2TBで,ノード間はMellanox社のFDR InfiniBandで接続されます。これに約17PBのディスクストレージが付き,さらに可視化のシステムが含まれています。2011年11月10日のThe Registerの報道では,このシステムのお値段は$25M〜$35Mだそうです。

  そして,このシステムは2012年の夏には本格稼働の予定です。

  気象関係では,現状は,圧倒的にIBMのPOWERベースのスパコンが強く,NCARも現在はPOWER 575を使っています。NCARはこのところIBMショップで,IBMから購入することに不思議はありませんが,そのシステムがPOWERベースのシステムではなく,IntelのSandy Bridge EPベースのiDataPlexという点がちょっと驚きです。単純にIntelベースの方がFlops単価が安いからという理由かも知れませんが,やはり,Blue Watersがこけて,POWERベースのシステムは買えないということになったのでしょうか。

4.NASAがPleiadesの10PFlopsアップグレードを発表

  2011年11月8日のHPCWireが,NASAがPleiadesを10PFlopsにアップグレードすると報じています。Pleiadesは,現状,Top500の7位でピーク性能が1.32PFlops,LINPACKが1.088PFlopsですが,SGI ICEの次世代機を増設し,ピーク演算性能を10PFlopsに引き上げるという計画です。この増設は2012年の1Qに行われるとのことです。

  Carlsbad 3.0と呼ばれるSGIの次期システムは,IntelのSandy Bridge E5プロセサをFDRのInfiniBandでHypercube接続すると書かれています。

5.ARMが最大8コアのMali-T658 GPUを発表

  2011年11月10日のEE Timesが,ARMの最大8Shaderコアまで拡張できるMali-T658 GPUの発表を報じています。

 このT-658は,現在のスマートフォンなどに使われているMali-400 GPUと比較すると10倍の性能とのことです。また,昨年のARM TechConで発表されたMali-T604 GPUは,登場は来年の予定ですが,このT658はその次世代のGPUで,28nmプロセスを使う4 Shaderコアのハイエンドスマートフォン用のチップ が登場するのは2013年の予定です。そして,8 Shaderコアは20nmプロセスを使い,2015年とのことです。

  T604は最大4 Shaderコアで,各Shaderコアの演算パイプラインを2つにロード/ストアとテクスチャのパイプラインを各1個ですが,T-658では最大8 Shaderコアで,各Shaderコアは4並列の演算パイプライン とロード/ストアとテクスチャを各1個を持っています。従って,演算だけでみると,クロック等が同じとしても4倍の演算性能となります。

  当然ですが,T658は,10月22日の話題で紹介したbig-LITTLE省電力テクノロジや64ビットアーキのARMv8とも互換性があるとのことです。また,T648はDirect X11,DirectCompute,OpenGL,OpenCLなどとをサポートし,グラフィックス処理以外にもイメージ処理やAugmented Realityなどに使えると言っています。

6.nVIDIAがTegra 3(a.k.a. Kal-El)を正式発表

  2011年11月9日にnVIDIAはKal-Elのコードネームで開発されてきたプロセサをTegra 3として正式に発表しました。Kal-Elについては10月29日の話題で紹介しており,あまり付け加えることはありませんが,12コアのGPUを集積しグラフィックス性能はTegra 2と比較して最大3倍で,消費電力は最大61%少ないと書かれています。

  クロックはシングルコアの場合は1.4GHz,クワッドコアを動かす場合は1.3GHzとなっています。そして,メモリはDDR3L 1500とLPDDR2-1066のサポートとなっています。

inserted by FC2 system