最近の話題 2014 年2月15日

最近の話題 2014 年2月15日

１．IntelはISSCCで15コアのIvy-townを発表

　　2014年2月13日のPC Watchに，後藤さんがISSCC2014でのIntelのIvy-townの発表について書いておられます。Ivy-townは最大15コアのサーバ用チップで，22nmプロセスを使い，チップサイズは541mm²で，トランジスタ数は4.31Bとなっています。オンダイのLLCは37.5MB，3チャネル60レーンのQPI，合計40レーンのPCI Exress，4レーンのDMIを搭載しているとのことです。

　　メモリインタフェースは2677MbpsのVoltageMode Single-Ended（VMSE）と呼ぶインタフェースが出ており，これにMemory Extension Bufferと呼ぶチップを付け，その先にDDR3 DIMMをつける構成だとのことです。VMSEは4チャネルで，合計の実効メモリ帯域は75GB/sとなっています。

　　チップは最大規模の15コアのほかに10コア，5コアのものがあり，チップサイズはそれぞれ341mm²，257mm²となっています。

　　プロセサコアとL3$スライスがペアになっているので，10コア，5コアのものは，コア数比例でLLCの容量が決まってきます。

　　コア間の接続には3つの単方向リングが使われています。15コアの場合，5コアづつの3グループに分かれており，グループ1と2の10コアを廻るリング，グループ1と3を廻るリング，グループ2と3を廻るリングの3リングです。

２．IntelはISSCCでHaswellのeDRAMとFIVRを発表

　　2014年2月13日のPC Watchに，後藤さんがISSCC2014でのIntelのHaswellのeDRAMとFIVRの発表について書いておられます。

　　Haswellのハイエンドの品種は，パッケージの中にCPU以外にeDRAMのL4キャッシュチップを搭載しています。22nmのFinFETプロセスを使い，1Gbitのメモリを77mm²のチップで実現しています。メモリセルのサイズは0.029um²で，2Mbitのサブアレイを使い，アレイ効率は65%となっています。記憶キャパシタは2～4層の配線金属と配線間の絶縁膜で作られるMIMキャパシタとなっています。95℃でのDRAMセルのデータ保持時間は100usとなっています。

　　eDRAMチップの電源電圧は1.05Vで，CPUチップに搭載されたFIVRから供給されます。クロックは2GHzでランダムアクセスのサイクルタイムは3nsとのことです。

　　また，デスクトップ系のHaswellはFully Integrated Voltage Regulatorを搭載しています。電圧安定化回路はCPUチップに集積されており，Buckコンバータを構成するインダクタンスは，パッケージ基板の4層の配線層を利用して，空芯のコイルを作っています。なお，このコイルのQは～30とのことです。スイッチング周波数は140MHzとのことです。また,発表の図では，インダクタの近くにチップキャパシタが配置されており，これらがBuckコンバータのキャパシタと思われます。スイッチ速度が速いので，この程度の小さなインダクタやキャパシタで済みます。

　　スイッチ速度が速いので，0Vから0.8Vに電圧を変えるのに僅か.32usとなっており，電力効率も改善されます。

　　これまでの発表では，FIVRの出力は6系統と言われており，CPUコアの電源は1系統と思っていたのですが，後藤さんの図では，Vcoreは4系統に分かれており，コアごとに電源電圧を変えられるようになっています。コアに加えて，GPU電源のVGT，リングのVring，System AgentのVSA，VIOA，VIOD，それにPLL用のVRがあり，全体では10系統のVRが描かれています。

　　コイルは22個ある絵になっており，容量の大きなCPUコアやGPUには複数のコイルが使われているようです。

３．AMDはISSCCでSteamrollerコアを発表

　　2014年2月14日のPC Watchに，後藤さんがAMDのSteamrollerコアの発表について書いておられます。Steamrollerコアに関しては，2012年のHot Chipsの基調講演の中で概要が説明されていましたが，学会発表は今回が始めてです。

　　AMDは2コアを単位モジュールとする構造をとっていて，Piledriverコアでは,命令のフェッチからデコードの部分と，浮動小数点演算器が2コアで共用されていました。これをSteamrollerコアでは，命令デコードユニットをコアごとに持たせ，L1命令キャッシュを64KiB 2wayから，96KiB 3wayと強化し，BTBを5Kから10Kに倍増し，性能を改善しています。

　　そして，その他のリソースの量も細かく増減されて最適化されています。

　　製造プロセスは，従来，SOIプロセスを使っていたのですが，今回はGlobal Foundriesの28nmバルクプロセスに変わっています。そして，2コのモジュールの面積は29.47mm²でそのうち2MiBのL2$が10.86mm²を占めています。トランジスタ数は236MでFF数は437Kとなっています。電源電圧は0.7V～1.35Vと書かれています。

　　結果として，Piledriverと比較すると，IPCは14.5%アップし，電力は38%減少しているとのことです。

４．AMCCはISSCCでX-Geneプロセサを発表

　　2014年2月14日のPC Watchに，後藤さんがAMCCの64bit ARMv8アーキテクチャのX-Geneの発表について書いておられます。X-Geneに関しては，2012年のHot Chipsで発表が行われています。

　　X-GeneはARMｖ８アーキテクチャですが，ARMのコアは使わず，AMCCの独自開発のコアを使っています。AMCCは，2コアと共有の2MiBのL2$をまとめたものをPotenza Processor Module(PMD)と呼んでいます。

　　製造プロセスは40nmで，PMDの面積は14.8mm2で，トランジスタ数は84Mとなっています。コアは4wideのOut-of-Orderで，仮想化やNested Page Tableとハードウェアのテーブルウオークをサポートしています。電源電圧は0.9Vで，3GHzクロックでの動作が可能で，PMDの消費電力は，平均的に4.5W程度とのことです。

　　最初のX-Geneチップは4個のPMDモジュールと8MiBのL3$を持ち，DDR4メモリインタフェースを4チャネル備えています。

５．ARMがCortex-A17を発表

　　2014年2月11日のEE Timesが，ARMが3月にCortex-A17とMali DP-500をリリースすると報じています。これらのコアは$200～$350程度の中級にスマホを主要なターゲットとしているとのことです。

　　A17は32bitアーキテクチャで，28nmプロセスで実装した場合，1.5～2.3GHzクロックで動作し，現在の32bitハイエンドのA15と同等の性能を40%低い電力で実現するとのことです。DP-500ディスプレイコントローラはMali T720 GPUコアを含み，従来のモバイルGPUより低電力で，有料コンテンツの安全なデリバリをサポートする機能を持つと書かれています。

６．信州大学が富士通のスパコンを導入

　　2014年2月13日に富士通は，信州大学がPRIMERGY RX200 S8　16台のPCクラスタと，京コンピュータの商用版であるPRIMEHPC FX10 1台を導入することを決定したと発表しました。稼動は2014年7月の予定です。

　　PRIMERGYクラスタは16ノードで，ピーク演算性能6.758TFlops，PRIMEHPC FX10は12ノードで，ピーク演算性能は2.5TFlopsとなっています。FX10は1筐体に96ノード搭載可能ですから，このシステムは1/8実装となります。

　　JSTの「革新的イノベーション創出プログラム（COI STREAM）」に採択された「革新的ナノカーボンなどを用いた造水・水循環システム」の研究のためのシミュレーションに使われるとのことです。

　　FX10の受注発表は，昨年8月のキャノンの96ノードシステムの受注に続くもので，これで累計10システムとなり，50システムの受注目標まで残り40システムです。合計の受注ノード数は11448ノード（ただし，台湾中央気象局のノード数を東大のOakleaf-FXと同じと想定）となります。この合計のノード数は，まだ，京コンピュータの1/8程度しかなく，なかなかビジネスとしては厳しそうです。