最近の話題 2012年9月15日

最近の話題 2012年9月15日

１．IntelがサーバCPUチップに集積する次世代のインタコネクトの開発を発表

　　2012年9月10日のEE Timesが，Intelが将来のXeonやAtomといったサーバ用のCPUに集積する次世代のインタコネクトを開発すると発表したと報じています。まだ，どのようなロードマップになり，何時ごろ製品が出てくるかなどは不明ですが，CPUチップにインタコネクトを入れて，それらを直結することでクラスタが作れるようなチップにしていくことを意図しているようです。

　　IntelはEthernetのFulcrum，InfiniBandをQLogicから，そして，Crayのインタコネクト部門を買収していますから，ノウハウもリソースもある筈です。

２．AMD SeaMicroがSM15000と5PBのディスク接続を発表

　　2012年9月10日にAMDの1部門であるSea Microは，SM15000サーバと5PBのディスク接続を発表しました。

　　Sea MicroはSM10000という高密度サーバを出した会社で，AMDに買収され，その後，AMDは，目的はインタコネクトで，顧客と競合するサーバに進出するつもりはないと言ってきたのですが，このほど，SM15000というサーバを発表しました。SM15000は，CPUボードとして，AMDのPiledriverコアを8コア搭載するOpteronチップ，Intelの4コアIvy Bridge，同じく4コアのSandy Bridgeと2コアのAtomを4個搭載したものを提供しています。

　　そして，インタコネクトのバンド幅は変わっていないようですが，インタコネクトのASICはFreedom ASIC 2.0となり，IO仮想化（これは以前から？）と動作していないノードをパワーダウンするTurn It Off機能，そして，インタコネクトをシャシー外に延長してストレージを接続するという機能が追加されています。

　　この拡張は，具体的にはx4の3GbpsのSASで，これが16ポート装備されています。そして，この先に84HDDを収容する箱が接続でき，合計で1344ドライブ，それに基本筐体に64ドライブで，合計で1410ドライブが接続でき，4TBのディスクを使用すれば，全体で5PBという計算です。これらの外部ディスクはSAS経由の接続ですが，サーバCPUから見ると，内蔵と同様に，それぞれのノードに直結されているディスクと同じように見えるとのことです。

　　このインタコネクトASICは3次元トーラスを構成し，バンド幅は1.28Tb/sとなっていますが，この1.28Tb/sがどこのデータ転送速度を指すのかよくわかりません。

　　Opteronは，Piledriver　8コアでクロックは2.0/2.3/2.8GHzとなっていますが，このOpteronは未発表です。また，Opteronボードは8コアでメモリも64GB搭載できますが，Xeonは4コアでメモリも32GBと差を付けています。

３．IDF2012 FallでIntelがHaswellを発表

　　サンフランシスコで9月11日～13日に掛けて開催されたIntel Developer Forumで，Haswellが発表されました。初日のDavid Perlmutter氏の基調講演でも触れられたのですが，そのポイントはタブレットからスパコンまでHaswellでやるというステートメントです。22nmのFinFETと相まって，電力制御の進化で，アイドル時のパワーを第1世代コアプロセサの1/20に低減し，アクティブパワーも下げてきているので，タブレットにも使えるということです。

　　単一コアで済むのは開発費の点では有利ですが，Haswellコアは何と言っても大きいのでチップコストが上がります。タブレットなどのローエンドは，売値が安く，量が多いので，本当にこれが良い戦略であるかどうかは疑問です。

　　それはともかく，Haswellコアですが，分岐予測の改善，Out-of-Order実行のためのバッファ量の増加などを行ってますが，目立つの実行ユニットの強化です。Ivy Bridgeまでは，命令の発行は6ポートでしたが，これがHaswellでは8ポートに拡張されました。

　　そしてポート0と1ではFMA(浮動小数点積和）演算が可能になりました。ということは1サイクルに２つの積算と加算ができ，1サイクルに4浮動小数点演算が行えることになります。256bit長のAVX命令でFMAが出来るので，倍精度浮動小数点数でコアあたり16演算/サイクル，単精度なら32演算/サイクルです。このため，ロード，ストアユニットのバンド幅が倍増され，L1Dキャッシュから毎サイクル64Bの読み込みと32Bの書き込みができるようになりました。また，L2-L1間も64B/Cycleに倍増されています。

　　なお，FMAの演算レーテンシは5サイクルで，MUL+ADD命令を連続した場合の8サイクルに比べてレーテンシも短くなっています。

　　新設のポート6と7ですが，ポート6は整数，ALU,シフト演算で，ポート7はストアアドレスの計算です。これで整数演算はポート0，1，5，6と4命令を並列に実行できるようになりました。また，新しい分岐ユニットがポート6に追加され，ビジーなポート0をオフロードしています。

　　従来は，ポート2と3でロード，ストアのアドレス計算を行っていたのですが，ポート7が加わることにより2つのロードアドレスと１つのストアアドレスの計算が同時に実行できるようになります。　　

４．IntelのHaswellはWideIO DRAMを搭載か？

　　2012年9月10日のSemiAccurateは，IntelのIvy Bridgeの次世代のHaswellはGPUを強化し，シェーダーコアの搭載数をGT1は10，GT2は20，GT3は40個と報じています。ただし，GT1とGT2は1.2GHzで動作するのに対して，GT3は800MHz動作で消費電力を抑えるとのことです。

　　そして，トップエンドのGT3を搭載する品種は，Crystalwellと呼ぶ，512bit幅のDRAMを同一パッケージに搭載していると書いています。CPUチップに載せたGPUは，通常のDDR3のメインメモリをCPUと共用するのでバンド幅が不足し，専用のディスクリートGPUに性能的な差を付けられてしまうのですが，512bit幅のDRAMが直結されれば，かなりバンド幅がアップし，中くらいのグラフィックスボードに迫る性能を出すことも可能になります。

　　IDFではCrystalwellには触れられておらず，Haswellのグラフィックスの資料にも，そのようなインタフェースは書かれていません。また，その存在が確認できるようなダイフォトも公開されていないので，SemiAccurateの報道を確認できない状態です。

５．Knights Cornerは56コアで製品化か

　　2012年9月14日のSemiAccurateが，IDFでのXeon Phi（Knights Corner）のデモのスクリーンショットを報じています。2ボードのシステムで，コア数は112個となっており，1チップでは56コアとなります。そして，Charlieは，チップには64コア搭載されており，その他に何コアかがOSや他のタスクに使われていると書いています。

　　IOなどを処理する専用のコアという話はIntelのプレゼンにも出ているので，そのようなコアがあるのは確かと思いますが，それが112の外数なのかどうかは，ちょっと疑問です。

　　いずれにしても，Top500 150位のシステムの登録諸元ではチップあたり54コアと計算されるので，56コアが計算コア数とすると，生かされるコア数が2個増えたことになります。一方，150位のシステムは56コアだけど，IOなどに使っている2コアはLINPACKの計算のコア数に数えないということになっているとすれば，生かされるコア数は変わっていないということになります。

　　そして注目されるのが電力で，一方は190W，もう一方は248Wとなっています。この違いは製造ばらつきでしょうかね。そして，使われているコアはどちらもゼロで，アイドル状態でこのパワーだと，フル動作ではどうなるのでしょうかね。

　　チップ温度は64℃となっており，200Wクラスの消費電力としては良い冷却系と思いますが，30%も消費電力が違うのに温度が全く同じというのも，嘘っぽい気がします。

６．Mooreの法則は，もう10年健在か

　　2012年9月13日のEETimesが，IntelのシニアフェローのMark Bohr氏が，IDFでの発表の際に会場からの質問に答えて，少なくとも10年はMooreの法則の終わりは見えないと語ったと報じています。また，チップの3Dスタッキングに関しては，技術的にはできるが，追加コストがボトルネック。1Wのチップは良いが，30～40Wのチップは放熱が出来ないと述べたとのことです。

　　また，2012年9月12日のThe Regsiterは，Bohr氏は，22nmプロセスの欠陥密度は量産レベルまで下がっており問題ない，また，次世代の14nmプロセスはフルデベロップメントに入っており，予定通りで順調と述べたと報じています。ただし，22nmの配線ピッチは80nmで，これが液浸ArFで露光できる限界で，14nmでは2重露光に

　　IntelはASMLに出資したりしてEUVと450mmウエファを使うFabを推進していますが，2012年9月13日のThe Inquirerが，Bohr氏は，EUVや450mmウエファは2016頃の10nm世代には間に合わないと述べたと報じています。EUVはベータ機が出ており，より改良されるとしても，まだ，コスト的に引き合うレベルにならないと見ています。従って，10nmはArFの液浸の多重露光で行くと述べています。また，450mmウエファは，単にウエファを作るだけでなく，全ての製造装置，測定装置，搬送装置，ウエファレベルのテスタなどを450mm対応にしなければならないので，まだ，4～5年はかかると見ています。

７．iPhone5のA6プロセサはデュアルコアA15か？

　　2012年9月13日のEETimesが，Nomura Equity Researchの発表として，AppleのiPhone5に使われているA6プロセサはSamsung製で，ARMの64bitアーキテクチャのA15のデュアルコアと報じています。

　　AppleはA6は，A5xの2倍の性能，グラフィックスも2倍の性能と言っていますが，それ以上の中身については発表していません。野村のニュースソースは不明とのことですが，Samsungは32nmプロセスで製造するA15デュアルコアのExynos 5250のサンプリングを昨年末から始めており，今年の夏には量産と言っていたので，時期は合うとのことです。また，Samsungは2GHzのA15コアは1.5GHzのA9コアの2倍の性能と言っており，性能的にも辻褄はあうと見ています。

　　ExynosのグラフィックスはMaliですが，AppleはImaginationのGPUコアを使ってきているので，GPUは4コアのPowerVR SGX543MP4と見られるとのことです。