最近の話題 2013年4月27日

1.NECの次世代ベクトルスパコンは分散メモリ

  2013年4月24日のマイナビニュースが,NECの次期ベクトルスパコンは分散メモリになるという私のレポート記事を掲載しています。

  ベクトルスパコンは演算性能に対するメモリバンド幅(Byte/Flop)が大きいのが特徴で,メモリアクセスが多い問題でも演算性能を発揮しやすいというメリットがあります。そして,初代地球シミュレータもそうですが,共通メモリ方式をとっており,全てのベクトルプロセサコアがメモリ経由でデータが共有できます。

  プログラムが作りやすく,機能的には望ましい構成なのですが,巨大なバンド幅を持つ共通メモリと多数のプロセサを接続する巨大なクロスバが必要となり,コストが高くなるのという問題があります。私の感じでは,ピークメモリバンド幅で比較すると,ベクトルとスカラスパコンは同程度の価格で,ピーク演算性能(Flops)で比較するとベクトルは数倍高い価格になっていると思います。

  4月17日〜19日に開催されたCool Chips 16で,NECは次世代ベクトルスパコンについて講演し,初めて,その構成が明らかにされました。プロセサチップは28nmプロセスで作られ,23.05mm×24.75mmと結構大きなチップです。このチップに16台のベクトルユニットを持つコアを4個集積し,1サイクルあたり32個の倍精度浮動小数点加算と,32個の倍精度浮動小数点乗算を実行することができ,クロックは1GHzなので,チップ全体では256GFlopsの性能になります。

  消費電力は発表されませんでしたが,富士通のSPARC64 Xと同じ程度のチップサイズで,クロックが富士通は3GHzに対して1GHzですから,SPARC6 Xよりはかなり低い消費電力と思われます。しかし,プロセサチップは水冷です。

  そして,各コアに,ADBと呼ぶベクトル用の1MBのキャッシュを持ち,ADBとベクトル演算器の間は4B/Flopのアクセスができます。プロセサチップは16チャネルのDDR3コントローラを内蔵し,256GB/sのメモリバンド幅を持ち,メモリとの間は1B/Flopになっています。

  プロセサチップからは8GB/sのリンクが2本出ており,発表者の百瀬氏に聞いたところ,このポートをファットツリーのネットワークで接続して,分散メモリのシステムになるという答えでした。従来のNECのスパコンユーザは共有メモリを前提としてプログラムを作っている筈で,この次世代マシンになると,それをMPIでノード間の通信を行うようにプログラムを書き変える必要があり,大変ではないかと思うのですが,百瀬氏によると地球シミュレータセンタなどの主要顧客は既にMPIを使っており,共有メモリでないと困るというユーザは一部とのことでした。

  プロセサのFabはと質問したのですが,これは答えられないという回答で,NEC系のFabなら胸を張って答える筈ですから,TSMCと思われます。国産のもう一方の富士通のSPARC64もTSMC製ですから,国産スパコンは完全にTSMCに依存することになります。

2.Haswellのウルトラブックのアイドル電力は100mW以下

  2013年4月26日のPC Watchが,Haswellのアイドル電力を100mW以下にする省電力技術に関する後藤さんの記事を掲載しています。

  Haswellはオンパッケージでボルテージレギュレータ(VR)を搭載し,従来よりも細かい電力制御を行っているのですが,Haswell世代のウルトラブックの省電力技術の粋は,動作電力の低減ではなく,アイドル電流の削減に向けらているとのことです。

  従来,プロセサはC7ステートでコアやキャッシュなどの大部分はパワーオフされていたのですが,内部の電源レールを全てオフにし,外部から24MHzのクロックを供給してPLLも切るC8ステート,更に,内蔵VRへの入力電圧を0VにするC9ステート,外部のVRも止めるC10ステートを新設しています。ステートが深くなるほど復帰にも時間がかかり,C10では3ms程度の時間が掛ります。

  また,CPUだけ低電力にしてもダメで,低負荷でも効率が大きく低下しないVRや,液晶パネルのセルフリフレッシュ,セルフリフレッシュ時の消費電力がDDR3に比べて大幅に少ないLPDDR3 DRAMの採用,高速シリアルリンクスピードの適応制御などの部品各社との共同開発でシステムとしてのアイドル時の電力削減を行っています。

  そして,アイドル時間を延ばすため,割り込みのサービスの許容できる応答時間をIOが申告するLatency Tolerance Reportingを受け取り,各IOが許容できる範囲内で,割り込みの応答をまとめて処理できるようにスケジューリングするPower Optimizerというフレームワークを導入しています。

  結果として,C10ステートのHaswellが45mW,VRロスが21mW,LPDDR3 DRAMのセルフリフレッシュが13mW,SSDが5mW,WiFiが2mWなどで,合計は95mW程度になるとのことです。

  なお,2013年4月26日のマイナビニュースに,Cool Chips 16でのIntelのMcCool氏のIntelの省電力技術に関する「スパコンが携帯から学べることは?」と題する発表のレポートが掲載されています。バックグラウンドとして参考になると思います。

  アイドル時の電力をゼロに向かって限りなく減らすというのが最近の技術開発の焦点になっている感じです。

@1118714

 

 

  

 

inserted by FC2 system