最近の話題 2011年3月5日

1.ISSCC2011でのPoulsonの発表(補遺)

  2011年3月3日のThe RegisterがPoulsonについて詳しい記事を掲載しています。

 先週の話題でチップサイズが18.2×29.9mmということは紹介しましたが,この記事にはチップ写真が掲載されています。4コアづつ左右の端に載り,中央は32MBのL3$が占めています。そして,チップの中央がシステムロジックでその両側に計2.2MBのDirectory Cahceがあります。といことで,Xeonと同じQPIですが,Poulsonはディレクトリベースのキャッシュコヒーレンシ制御をやっているようです。

 このQPIですが,上辺に4つのフルQPIポートが並び,下辺の左右に1/2QPIポートがあります。そして下辺の中央にメモリを接続するSMIが2ポート配置されています。これらの面積から見ると,メモリ接続よりもQPIでのチップ間接続に面積を使っており,多数のチップをつなぐ大規模システムに重点を置いた設計という感じがします。

 総トランジスタ数は3,1Bですが,そのうち712Mがコアで158mm2を占めています。この部分は0.85〜1.2Vで動作し,95Wを消費します。ただし,このトランジスタの大部分は各コア512KBのでL2I$と256KBのL2D$のトランジスタ数です。L3$は2.17Bトランジスタで163mm2を占め,0.9〜1.1Vで動作し,消費電力は僅か5Wです。かなりの部分が動作を抑えて,必要な部分だけを読むという設計が徹底しているようです。

 L3$間などをつなぐリングバスは22Mトランジスタとトランジスタ数は僅かですが,137mm2を占めています。そして,0.9〜1.1Vで動作し,50Wを消費するそうです。やはり,長い距離を大量のビットを伝送するのにはエネルギーが要ります。残りのQPIやSMIの部分は44Mトランジスタで68mm2を占め,1.05〜1.1Vで動作し,20Wを消費します。

 SMIのバンド幅は45GB/s,QPIの合計は128GB/s,そしてリングバスのバンド幅は700GB/sとなっています。

 全体の消費電力は170Wで,現在のTukwilaの185Wと比較すると若干減少しています。

 リングバスのラインはL3$の上を走っていると思われるので,この面積のカウントの上でどう扱われているのかが不明ですが,面積,電力ともに,リングバスがそれほど安価ではないことを示しています。また,8個のコアとシステムエージェントの間はリングバスですが,QPIやSMIのポートとの接続はクロスバのようです。

2.ISSCC2011でののBulldozerの発表(補遺)

  2011年3月2日4日のPCWatchに後藤さんがBulldozerの発表に関する詳しい記事を載せています。これらの記事を見てい戴ければよいのですが,記録のために少し書いておきます。

  ISSCCでの発表はBulldozerモジュールだったのですが,この記事には8コア(4モジュール)のOrochiのダイ写真が載っています。チップ面積は300mm2程度で,400mm2程度の8コアSandy Bridgeは3割大きいと書かれています。FPUを2コアで共通化したりしているのが効いていると思われますが,Sandy Bridgeはコアあたり倍精度浮動小数点で16演算/サイクルであるのに対して,Bulldozerは8演算/サイクルと半分になっているので,HPCでは苦戦しそうな感じがします。一方,FP演算やメディア演算の使用比率が少ない用途ではBulldozerの方が低コスト,低消費電力ということになりそうです。

  2コア共用のFPUは128ビット分づつ左右に分かれた配置になっており,シャッフルなどの上下の通信が必要な場合は中央に置かれたMiddle Datapath Handlesと呼ぶ部分を使うようです。まあ,積和演算などは最大64ビット単位なので問題なく,シャッフルなどは距離は長くなるけれど処理は簡単なので,時間的には十分だと思います。

  そして,消費電力の低減に関しては,フロントエンドが強化され,分岐予測の精度を上げて無駄な命令の実行を減らすことと,アーキテクチャレジスタとROBを一体化してデータ転送を減らすという点が宣伝されていますが,AMDからはっきりした根拠データは出ていません。

  確かに分岐予測の精度が良くなれば,間違った予測に基づいて実行してしまった命令の消費エネルギーは減りますが,分岐予測機構の大型化による消費エネルギーの増加もあります。また,本来は,成功率の低い条件分岐は予測しないで,方向が確定するまで待ってから実行すれば予測ミスはなくなります。この待ちはSMTなら別スレッドを実行して「つなぐ」ことができますが,BulldozerはSMTをサポートしていないので,これはできません。

  もう一つのレジスタの一体化ですが,確かに命令コミット時のデータ転送はなくなりますが,分岐予測ミスや割り込みの場合にアーキテクチャ状態を巻き戻すためにはレジスタのリネーム関係をチェックポイントとして記憶しておく必要があります。100個の物理レジスタがあれば,リネームの各エントリは6〜7ビットになるので600〜700ビットになり,コミット時のデータ移動よりビット数が多くなります。このチェックポイントをどの程度の頻度で行うか,ビット数を何らかの方法で圧縮するかなどで消費エネルギーがどの程度減るかが変わります。

  誰か,この辺がどうなっているのか知っている人はいませんでしょうかね。

3.SeaMicroが64ビットAtomベースの512コアサーバを発表

 2011年2月28日にSeaMicro社は64ビットアーキテクチャでデュアルコアのN570 Atomプロセサを使う512コアサーバSM10000-64を発表しました。デュアルコアチップの採用で消費電力は15〜20%減少しているとのことです。

  SeaMicroについては,昨年6月19日の話題で紹介していますが,このときのSM10000サーバはシングルコアのZ530 Atomを使っていたのですが,今回は64ビットアーキテクチャでデュアルコアになったN570というAtomプロセサに変わっています。なお,今日現在,N570はIntelから発表されていませんが,クロックは1.66GHzとなっています。デュアルコアになったのですが,ボードあたり8個から4個に減っているので,同じ10Uのラックに収容されるコア数は512個で変わっていません。

  今回,64ビット化されたので,最近の64ビットOSが使えるようになったのが大きなメリットです。また,64ビット化で,各プロセサに接続されるメモリが2GBから4GBに倍増しましたが,コアあたりでは同じ2GBです。

  特徴はSeaMicroの独自設計のインタコネクトで,1.28Tbit/sのバンド幅と書かれています。これはSM10000と同じです。そして,Hadoop MinuteSort benchmarkでは29台のSM10000-64を使用するシステムは1406台のデュアルコアを使うシステムより性能が高く,消費電力は1/4,スペースは1/5となっています。また,ApacheBenchで毎秒100万個の16KBファイルをフェッチするテストでは,1台のSM10000-64は45台のデュアルソケットサーバと同じパフォーマンスで,電力1/4,スペース1/5としています。

  基本構成のシステムのお値段は$148,000となっています。2011年2月28日のThe Registerの記事によれば,これで512コアと1TBのメモリが含まれているそうです。

 

 

 

inserted by FC2 system