最近の話題 2014 年2月15日

1.IntelはISSCCで15コアのIvy-townを発表

  2014年2月13日のPC Watchに,後藤さんがISSCC2014でのIntelのIvy-townの発表について書いておられます。Ivy-townは最大15コアのサーバ用チップで,22nmプロセスを使い,チップサイズは541mm2で,トランジスタ数は4.31Bとなっています。オンダイのLLCは37.5MB,3チャネル60レーンのQPI,合計40レーンのPCI Exress,4レーンのDMIを搭載しているとのことです。

  メモリインタフェースは2677MbpsのVoltageMode Single-Ended(VMSE)と呼ぶインタフェースが出ており,これにMemory Extension Bufferと呼ぶチップを付け,その先にDDR3 DIMMをつける構成だとのことです。VMSEは4チャネルで,合計の実効メモリ帯域は75GB/sとなっています。

  チップは最大規模の15コアのほかに10コア,5コアのものがあり,チップサイズはそれぞれ341mm2,257mm2となっています。

  プロセサコアとL3$スライスがペアになっているので,10コア,5コアのものは,コア数比例でLLCの容量が決まってきます。

  コア間の接続には3つの単方向リングが使われています。15コアの場合,5コアづつの3グループに分かれており,グループ1と2の10コアを廻るリング,グループ1と3を廻るリング,グループ2と3を廻るリングの3リングです。

2.IntelはISSCCでHaswellのeDRAMとFIVRを発表

  2014年2月13日のPC Watchに,後藤さんがISSCC2014でのIntelのHaswellのeDRAMとFIVRの発表について書いておられます。

  Haswellのハイエンドの品種は,パッケージの中にCPU以外にeDRAMのL4キャッシュチップを搭載しています。22nmのFinFETプロセスを使い,1Gbitのメモリを77mm2のチップで実現しています。メモリセルのサイズは0.029um2で,2Mbitのサブアレイを使い,アレイ効率は65%となっています。記憶キャパシタは2〜4層の配線金属と配線間の絶縁膜で作られるMIMキャパシタとなっています。95℃でのDRAMセルのデータ保持時間は100usとなっています。

  eDRAMチップの電源電圧は1.05Vで,CPUチップに搭載されたFIVRから供給されます。クロックは2GHzでランダムアクセスのサイクルタイムは3nsとのことです。

  また,デスクトップ系のHaswellはFully Integrated Voltage Regulatorを搭載しています。電圧安定化回路はCPUチップに集積されており,Buckコンバータを構成するインダクタンスは,パッケージ基板の4層の配線層を利用して,空芯のコイルを作っています。なお,このコイルのQは〜30とのことです。スイッチング周波数は140MHzとのことです。また,発表の図では,インダクタの近くにチップキャパシタが配置されており,これらがBuckコンバータのキャパシタと思われます。スイッチ速度が速いので,この程度の小さなインダクタやキャパシタで済みます。

  スイッチ速度が速いので,0Vから0.8Vに電圧を変えるのに僅か.32usとなっており,電力効率も改善されます。

  これまでの発表では,FIVRの出力は6系統と言われており,CPUコアの電源は1系統と思っていたのですが,後藤さんの図では,Vcoreは4系統に分かれており,コアごとに電源電圧を変えられるようになっています。コアに加えて,GPU電源のVGT,リングのVring,System AgentのVSA,VIOA,VIOD,それにPLL用のVRがあり,全体では10系統のVRが描かれています。

  コイルは22個ある絵になっており,容量の大きなCPUコアやGPUには複数のコイルが使われているようです。

3.AMDはISSCCでSteamrollerコアを発表

  2014年2月14日のPC Watchに,後藤さんがAMDのSteamrollerコアの発表について書いておられます。Steamrollerコアに関しては,2012年のHot Chipsの基調講演の中で概要が説明されていましたが,学会発表は今回が始めてです。

  AMDは2コアを単位モジュールとする構造をとっていて,Piledriverコアでは,命令のフェッチからデコードの部分と,浮動小数点演算器が2コアで共用されていました。これをSteamrollerコアでは,命令デコードユニットをコアごとに持たせ,L1命令キャッシュを64KiB 2wayから,96KiB 3wayと強化し,BTBを5Kから10Kに倍増し,性能を改善しています。

  そして,その他のリソースの量も細かく増減されて最適化されています。

  製造プロセスは,従来,SOIプロセスを使っていたのですが,今回はGlobal Foundriesの28nmバルクプロセスに変わっています。そして,2コのモジュールの面積は29.47mm2でそのうち2MiBのL2$が10.86mm2を占めています。トランジスタ数は236MでFF数は437Kとなっています。電源電圧 は0.7V〜1.35Vと書かれています。

  結果として,Piledriverと比較すると,IPCは14.5%アップし,電力は38%減少しているとのことです。

4.AMCCはISSCCでX-Geneプロセサを発表

  2014年2月14日のPC Watchに,後藤さんがAMCCの64bit ARMv8アーキテクチャのX-Geneの発表について書いておられます。X-Geneに関しては,2012年のHot Chipsで発表が行われています。

  X-GeneはARMv8アーキテクチャですが,ARMのコアは使わず,AMCCの独自開発のコアを使っています。AMCCは,2コアと共有の2MiBのL2$をまとめたものをPotenza Processor Module(PMD)と呼んでいます。

  製造プロセスは40nmで,PMDの面積は14.8mm2で,トランジスタ数は84Mとなっています。コアは4wideのOut-of-Orderで,仮想化やNested Page Tableとハードウェアのテーブルウオークをサポートしています。電源電圧は0.9Vで,3GHzクロックでの動作が可能で,PMDの消費電力は,平均的に4.5W程度とのことです。

  最初のX-Geneチップは4個のPMDモジュールと8MiBのL3$を持ち,DDR4メモリインタフェースを4チャネル備えています。

5.ARMがCortex-A17を発表

  2014年2月11日のEE Timesが,ARMが3月にCortex-A17とMali DP-500をリリースすると報じています。これらのコアは$200〜$350程度の中級にスマホを主要なターゲットとしているとのことです。

  A17は32bitアーキテクチャで,28nmプロセスで実装した場合,1.5〜2.3GHzクロックで動作し,現在の32bitハイエンドのA15と同等の性能を40%低い電力で実現するとのことです。DP-500ディスプレイコントローラはMali T720 GPUコアを含み,従来のモバイルGPUより低電力で,有料コンテンツの安全なデリバリをサポートする機能を持つと書かれています。

6.信州大学が富士通のスパコンを導入

  2014年2月13日に富士通は,信州大学がPRIMERGY RX200 S8 16台のPCクラスタと,京コンピュータの商用版であるPRIMEHPC FX10 1台を導入することを決定したと発表しました。稼動は2014年7月の予定です。

  PRIMERGYクラスタは16ノードで,ピーク演算性能6.758TFlops,PRIMEHPC FX10は12ノードで,ピーク演算性能は2.5TFlopsとなっています。FX10は1筐体に96ノード搭載可能ですから,このシステムは1/8実装となります。

  JSTの「革新的イノベーション創出プログラム(COI STREAM)」に採択された「革新的ナノカーボンなどを用いた造水・水循環システム」の研究のためのシミュレーションに使われるとのことです。

  FX10の受注発表は,昨年8月のキャノンの96ノードシステムの受注に続くもので,これで累計10システムとなり,50システムの受注目標まで残り40システムです。合計の受注ノード数は11448ノード(ただし,台湾中央気象局のノード数を東大のOakleaf-FXと同じと想定)となります。 この合計のノード数は,まだ,京コンピュータの1/8程度しかなく,なかなかビジネスとしては厳しそうです。

 

inserted by FC2 system