最近の話題 2013年11月23日

1.第42回Top500 1〜5位は変わらず,TSUBAME-KFCがGreen500の1位を獲得

  2013年11月18日に第42回Top500リストが発表されました。1位は中国のTianhe-2で,5位までは6月に発表された第41回リストから変更はありません。第6位にGPUを付けて大幅に性能を向上させたスイスのCSCSとPiz Diantが入り,11位にGPUをアップグレードして性能を上げた東工大のTSUBAME2.5が入ったのが,まあ,大きな変化です。

  しかし,MFlops/Wでは東工大の油に漬けて冷やすTSUBAME-KFCが3418.18MFlops/Wで,最大効率となっています。また,筑波大のHA-PACS TCAが2979.57MFlops/Wで2位と電力効率では気を吐いています。

  Green500では,東工大のTSUBAME-KFCが4503.17MFlops/Wでダントツの1位,2位はケンブリッジ大のXeon E5+Tesla K20のマシンで3631.86MFlops/W,筑波大のHA-PACS TCAは3517.84MFlops/Wで3位となりました。

  そして,スイスのPiz Daintが3185.91MFlops/Wで4位で,ペタFlopsを超える大型スパコンとしては最もGreenということで表彰されました。また,TSUBAME2.5は3068.71MFlops/Wで6位となりました。

  なお,TSUBAME-KFCやHA-PACS TCAのMFlops/W値がTop500のリストから計算したものと食い違っていますが,これはGreen 500では電力が実測値になっていることと,必ずしも,LINPACK最大となる状態での測定ではなく,LINPACK値は少し下がっても,電力のより少ない状態での測定を使っているなどの違いがあるためです。

2.NVIDIAがTesla K40アクセラレータを発表

  2013年11月18日にNVIDIAはK40アクセラレータを発表しました。

  NVIDIAのGK110チップは15個のSMXを搭載しているのですが,K20では13個,K20xでは14個を使用し,残りは歩留まり向上のためのスペアとなっていました。これをK40ではスペア無し で15個のSMXを全部使うという構成になっています。そしてコアクロックも732MHzから754MHzに引き上げ,ピークの倍精度浮動小数点演算性能を1.31TFlopsから1.43TFlopsに引き上げています。また,チップ温度に余裕があるときには,クロックを810MHz,あるいは875MHzに引き上げるターボをサポートしています。

  メモリはクロックを2.6GHzから3GHzに引き上げて288MB/sとバンド幅を強化し,1GBのチップの使用で容量を12GBと倍増しています。

  更に,CPUとのインタフェースをPCIe2.0から3.0に変更し,バンド幅を倍増しています。これらの変更が入っているので,NVIDIAは,このチップをGK110Bと呼んでいます。

  この結果,K40はK20xと比べて,アプリによりますが5%〜25%の性能向上,ターボを効かせると,更に20%〜40%性能が向上するとのことです。

3.IntelがCPUパッケージに高バンド幅メモリを搭載する計画を発表

  2013年11月20日のEE Timesが,IntelのTechnical Computing部門のVPのRajeeb Hazra氏が,Intelはハイエンドのプロセサをカストマイズするトランジスタバジェットと工数を持っており,ハイエンドの顧客と共同作業をしていると述べたと報じています。そして,将来のXeonやXeon Phiにインタコネクトファブリックを追加したり,メモリを3D実装したりすると述べています。

  EE Timesの記事には図が載っており,この図はXeon Phiの次世代製品であるKnights Landingチップの周囲に多数の高バンド幅のメモリチップが載ったパッケージが描かれています。このメモリチップがどのようなものであるかは明らかではありませんが,Haswellのパッケージに搭載されたeDRAMの4次キャッシュのようなチップではないか思われます。

4.SC13でNECがSX-ACEを展示

  2013年11月のSC13で,NECは新ベクトルスパコンであるSX-ACEを展示しました。SX-ACEについては先週の話題でも紹介しています。

  そこで,なぜ,SX-X(10)で無くてACEなのかと聞いてみました。その答えは,SX10,SX11などは既に他のところから商標登録されており,使えないので,変えたとのことでした。Cool Chipsでこのスパコンを発表した百瀬さんに,ACEの次は中継ぎで,その次はクローザになるのかと聞いたら笑っていました。

  SX-ACEは新開発のCPU LSIと16枚のDIMMで1ノードを構成し,2ノードを1枚のボードに収容しています。このボード4枚が一つのモジュールで,これが筐体に8段搭載され,全体で64ノードになっています。2ノードボードのユニットの背面からは,8本の光ケーブル用のコネクタとCPUを冷却する水冷パイプのコネクタがでています。

5.SC13で富士通がFX10スパコンの後継機のプロトタイプを展示

  2013年11月のSC13で,富士通はFX10スパコンの後継機のプロトタイプを展示しました。メモリとして,高バンド幅のMicronのHMCを使っているのが大きな特徴です。後継機ではCPUの演算性能は1TFlopsを超えるとのことですが,DDR4メモリを使ってもDIMMあたり25GB/s程度がせいぜいで,B/F比を京スパコンと同じ0.5にしようとするとDIMMが20枚以上も必要になってしまいます。

  展示されたプロトタイプでは,CPUチップの廻りに8個のHMCが配置されています。HMCとCPU間を2リンクで接続し,15Gbit/sで伝送すると,双方向に60GB/sのバンド幅が得られます。これが8個ですから,480GB/sずつの双方向という計算になります。これだと500GB/sより多めですから,伝送速度は10Gbit/s,あるいは12.5Gbit/sなのかも知れません。あるいは,CPUとの接続は1リンクで,240GB/s双方向として,2番目のHMCは1番目のHMCに繋ぐということも有り得ます。その場合は両方合わせても500GB/sにはちょっと不足ですが,CPUに搭載するSerDesの数が半減します。

  ノードボードには3個のCPUを搭載し,これが4枚で一つのモジュールになっています。筐体には16モジュールが搭載され,全体で3×4×16=384ノードを搭載します。京コンピュータやFX10と同じTofuインタコネクトのトポロジを使いますが,モジュール間の接続は光になっています。

  京と比較すると,単体ノードの性能で8倍,筐体あたりのノード数で4倍で,総合すると32倍の密度になります。そうすると100PFlopsのシステムを京の1/3程度の規模で作れることになり,富士通は100PFlopsに対応できるマシンとしています。

6.PS4ではSonyは$18の儲け

  2013年11月19日のEE Timesが,IHSのPS4のコスト分析の結果を報じています。それによると,PS4の製造原価は$381という見積もりで,$399で売ると$18の儲けとなっています。ハードでは赤字で,ソフトで儲けたPS3とは大きく異なるとしていますが,IHSの見積もりは部品費の積み上げと組み立て加工費しか入っていないので,設計費の負担や小売店のマージンなどを入れれば,完全に赤字で,ソフトと将来のコストダウンで利益を出すという構造は変わっていません。

  PS3と比べると,CPUが$83.55から$100に上がり,メモリが$9.8から$88と跳ね上がっています。一方,光学ドライブは$66から$28と下がっています。CPUが上がったのは,殆どの機能を取り込んだSoCとなってチップサイズが大きくなったことが効いています。メモリが大幅に高くなったのは,容量が大きくなり,かつ,DDR3ではなく,メモリとしてGDDR5を使っていることが原因です。4GbitのGDDR5メモリを16個使用しており,1個あたり$5.5という見積もりです。現在のスポット価格でDDR3なら$3.7ですから,この部分で$30近い差がついています。

  

 

inserted by FC2 system