最近の話題 2013年8月31日

最近の話題 2013年8月31日

１．IBMがPOWER8を発表

　　2013年8月26日のHot Chips 24において，IBMがPOWER8プロセサを発表しました。この発表を2013年8月27日のThe Registerが報じています。

　　POWER 8は12コア＋96MBのeDRAMの3次キャッシュを搭載するチップで，テクノロジは22nm SOIです。前世代のPOWER7は8コア＋80MBだったので，コア数は1.5倍，L3$は1.2倍です。チップサイズは650mm2とのことです。

　　製品のクロックは発表されませんでしたが，バンド幅などの計算は4GHzで計算しており，これより速い製品も出てくると思われます。消費電力は前世代と同程度とのことで，250W程度と考えられます。

　　POWER7は4SMTであったのに対して，POWER8は8SMTに拡張してきており，OracleのM6と似て来ています。

　　システム構成では，Centaurと呼ぶメモリバッファチップを経由してメモリを接続しており，このチップが8個接続され，合計ではDDR3が32チャネル付きます。ピークのバンド幅は410GB/sで，実効で230GB/sとのことです。また，Centaurチップに16MBのL4キャッシュが内蔵されました。8個の合計で128MBですからCPUチップに内蔵の96MBと比べてさほど大きくはないのですが，こちらはメモリキャッシュなのでキャッシュされる対象がある程度異なるので，意味があるのでしょうか。

　　そして，CAPI（Coherent Attach Processor Interface）というものが付きました。アクセラレータなどを接続するときに，この機構がプロキシになってキャッシュコヒーレンシを維持するという説明で，アクセラレータ用のコヒーレントなキャッシュコントローラのタグや制御部などをCPUチップ側に組み込んでいるようです。そして，実際のデータは内蔵のPCI Express 3.0経由でやりとりします。IBMは従来，GXバスという独自のIOバスを使っていたのですが，PCIe3.0と比べてメリットがないので，PCIe3.0に乗り換えたという説明でした。

　　コア数，スレッドの増加，メモリバンド幅，L4キャッシュなどの効果で，POWER7に比較して2.2～2.7倍の性能だそうです。

　　IBMの発表で一番驚いたのは，コアごとのVR（Voltage Regulator)をオンチップで内蔵しているという一行です。どうなっているのか質問したのですが，発表者はノンコア部のアーキテクトで，電源の話は全く知らないということで，結局，スライドに書いてある一行以上のことは分かりませんでした。

　　コアごとにDVFSで，動作状態に応じて電源電圧とクロックを変えるのが，消費電力的には最適ですが，VRが多数必要になります。IntelのHaswellもVRを内蔵したのですが，コアの電源は共通で，コアごとのDVFSは出来ません。具体的には分かりませんが，これがうまく動くと平均的な消費電力はかなり下がるのかも知れません。

２．富士通がSPARC64 X+を発表

　　2013年8月27日のHot Chips 25において，富士通はSPARC64 X+を発表しました。この発表を2013年8月29日のThe Registerが報じています。

　　今年の発表は，昨年発表したSPARC64 Xの改良版で，16コア＋24MB L2キャッシュという基本的な仕様は変わっていませんが，クロックが3.0GHzから3.5+GHzにアップし，いくつかのマイクロアーキのエンハンスで性能をあげています。

　　プロセスは28nmで変わっていないので，基本的には，チューニングでクロックを上げたと思われます。マイクロアーキとしては分岐予測の改良，1次データキャッシュにWrite専用のパイプラインを追加し，Atomicの高速化やプリフェッチの改良などを行っています。また，従来は，レジスタウインドウが切り替わるCallやReturn命令をまたぐOut-of-Order実行は出来なかったのですが，これを隣接するレジスタウインドウのレジスタもリネーム可能にして，Out-of-Order実行できるように改良されています。

　　チップサイズは24mm×25mm（600mm2)で，Xでは23.5mm幅であったのが0.5mm増えています。

　　メモリへのスループットは102GB/sとなっておりこれはPOWER7と同程度で，POWER8と比べると半分程度です。メモリ容量は，ソケットあたり1TBとのことです。

　　それから，富士通がSWoC（Software on Chip）と呼ぶ，データベースの操作や暗号化などの高速化ハードウェアをエンハンスし，RSAのSign処理で1.37倍，可変長10進浮動小数点のNUMBERの加算は1.65倍，乗算は1.32倍に性能を向上させています。また，データベースで使われるBitVectorの処理も強化されています。

　　そして，4チップのキャッシュコヒーレントな接続を行うリンクの伝送速度を，14.5Gbpsから25Gbpsに引き上げています。そして，4チップのノード間の接続は14Gb/sのままで，XBチップを経由して，最大，64ソケットのSMPシステムを構成することができます。

　　また，今回の発表で，SPARC64 XからLowPower状態が取り入れられたことが明らかにされました。LowPower状態ではクロックと電源を下げて45%のパワーセーブと書かれていますので，電源を10%程度下げ，クロックも20%程度下げているのではないかと思われます。このLow Powerと通常動作の切り替えは，約1.7msかかるとのことです。そして，切り替えの途中でも，システムは継続して動くとのことです。また，メモリコントローラは，DIMMのPower-DownとSelf-Refreshモードもサポートしているそうです。

３．OracleがSPARCM6を発表

2013年8月27日のHot Chips 25において，OracleはSPACM6プロセサを発表しました。この発表を2013年8月28日のThe Registerが報じています。

　　M6は昨年発表のM5と同じS3コアを使っていますが，M5が6コアであったのをM6では12コアに倍増しています。全コア共通のL3$は48MBで，これはM5から増えていません。なお，各コアは8スレッドをサポートしているので，チップ全体では96スレッドを実行できます。これはPOWER8と同じです。

　　チップサイズや消費電力の発表はありませんが，まあ，POWER8やSPARC64 X+と同じくらいと思われます。

　　メモリコントローラを4チャネル内蔵し，BoBと呼ぶチップを経由して，2ストリングのDDDR3 DIMMを接続しており，全体では8チャネルのDIMMが繋がります。記述はありませんが，仮にDDR3-1666がサポートされているとすると，ピークバンド幅は108GB/sとなります。

　　そして，M6はCoherence Linkと呼ぶプロセサチップ間の接続ポートを7ポート持っており，8ソケットまでのシステムは，これを直結することでグルーレスに作ることができます。また，Scalability Linkというポートを6ポート持っており，これとBixbyと呼ぶ，ディレクトリベースのコヒーレンス処理とクロスバを兼ねたBixbyと呼ぶブリッジチップを経由して接続すると，最大，96ソケットのシステムを構成することができます。なお，Bixby BridgeはモントレーカウンティーのBig Surにある有名な橋の名前です。

　　IBM POWER8は，最大システムはPOWER7と同じ32チップとすると，32×12=512コア，4096スレッド，230GB/sのSustainedメモリバンド幅，富士通のSPARC64 X+は64×16=1024コア，2048スレッド，~~Sustained~~Peakメモリバンド幅は102GB/s。これに対して，M6は96×12=1152コア，9216スレッド，DDR3-1666とすると，Peakのメモリバンド幅は108GB/sで~~Sustainedでは80GB/s程度と思われま~~す。SPARC64 Xの昨年の発表ではSTREAM(Triad）の性能は65.6GB/sとなっており，Oracle　M6もSustainedでは，この程度と思われ，IBMの高バンド幅が目立ちます。また，DRAMメインメモリは，どのシステムもCPUチップ1個あたり1TBで，IBMは32TB，富士通は64TB，Oracleは96TBとなります。

@1164134