最近の話題 2009年8 月29日

1.Hot Chips 21

  2009年8月23日から25日にかけてStanford大学でHot Chips 21が開催されました。先週のプレビューで紹介したように,開会直後のサーバ1のセッションではAMDのMagny-CoursとIntelのNehalem EX,最後のサーバ2のセッションでSunのRainbow FallsとIBMのPOWER7が発表されました。

  マスコミでの取り上げ方は,POWER7がトップで,続いてRainbow Falls,そして一部でMagny-CoursとNehalem EXが取り上げられているという順序なので,この順番で紹介します。また,富士通のSPARC64 [fxも発表されたのですが,サーバセッションに入れず,アクセラレータのセッションでの発表になってしまったためか,Googleで検索してもマスコミのカバレージが見つかりません。

1.1 IBMがPOWER7について発表

  2009年8月26日のEE Timesが,Hot Chips 21でのIBMのPOWER7に関する発表について報じています。それによると,POWER7は8コアプロセサで32MBのeDRAMで構成された3次キャッシュをチップに内蔵しています。使用する半導体プロセスは45nmのSOIプロセスで,チップサイズは,567mm2と発表されています。また,クロック周波数や消費電力は公表されませんが,EE Timesの記事は,消費電力は100W〜190Wの範囲と推測しており,他のメディアではクロックは4GHzという報道があります。

  POWER7がPower6と大きく異なる点のその1は,4コアをすっ飛ばして8コアになった点です。その2は,Out-of-Order実行に戻った点です。そして,その3は3次キャッシュを内蔵した点で,その4は浮動小数点演算器の数を倍増した点です。

  7月25日の話題で紹介したように,IBMはPower6からPOWER7に筐体の交換なしにアップグレード可能と言っており,CPUモジュールの消費電力は全く同じではないとしても,大幅に消費電力を増やすことはできないと思われます。ということは,各コアの消費電力はPower6のコアに比べて1/4程度の消費電力とする必要があります。

  ということで,消費電力の観点から2コアや4コアの場合は4GHzというのはありうると思いますが,個人的には,8コアではクロックは2割くらい下がるのではないかと思います。但し,BlueWatersのようなスパコンでは,電源や筐体を新設計し,水冷で強引に8コアを4GHzで動かすという可能性はあると思います。また,Out-of-Order実行はIPCは上がりますが,全体としてのロジック段数は増えるので,パイプラインの段数を一定とするとクロックは下がります。クロックはできるだけ下げて電力を抑え,Out-of-Orderと4スレッドのSMTで性能を稼ぐという思想ではないかと思われます。

  そして,命令仕様としては3月14日の話題で紹介したPowerISA V2.06に準拠し,倍精度浮動小数点レジスタを128本に拡張し,浮動小数点演算器の個数も4個に倍増しています。従って,仮に4GHzクロックが実現できたとすると,8コアチップのピーク性能は256GFlopsとなります。

  また,従来,3次キャッシュは別チップだったのですが,eDRAMプロセスとプロセサ用の超高速トランジスタプロセスの両立を可能として,POWER7では32MBのL3$をCPUチップに内蔵しています。これによりL3$のアクセス時間が短縮されるので各コアに内蔵するL2$は256KBと小さくなり,8コア化にも貢献しています。

1.2 Sunの16コアRainbow Falls

  2009年8月26日のEE Timesが,Hot Chips 21でのSunのNiagaraシリーズの3代目であるRainbow Fallsの発表について報じています。Rainbow Fallsは16コアと汎用プロセサでは最大の集積コア数を誇り,各コアは16スレッドのマルチスレッドなので,1チップで256ハードウェアスレッドをサポートするプロセサです。報道では,TSMCの40nmプロセスを使っていると書かれていますが,発表はアーキテクチャ的な事項に限られ,チップサイズやキャッシュ容量,電力,クロックなどの物理的な側面は,まったくカバーされていません。

  チップは16個のコアと16バンクのL3$をクロスバで接続する構成で,L3$の先に2グループのコヒーレンシ制御ブロックがあり,そこからDRAMと他のチップへの接続が出ています。他のチップへの接続リンクは3本で,4チップまではグルーレスで接続できるようです。

1.3 AMDの12コアMagny-Cours

  2009年8月26日のPCWatchに後藤さんがMagny-Coursについて書いておられます。Magny-Coursは,使用するチップは基本的に6コアのIstanbulで,2チップを1個のパッケージに入れたものです。但し,HT3のトランスファーレートが6.4GT/sに向上していたり,対応するメモリにDDR3-1333追加されるなど若干の違いがあります。また,IstanbulではHT3を3本出していますが,チップには4本実装されており,このMagny-Coursでは4本目を使っています。

  同一パッケージ内の2個のチップをx16とx8それぞれ1本で接続し,他のパッケージへの接続としてx16とx8をそれぞれ1本出し,片方のチップからキャッシュコヒーレンシをサポートしないx16を出しています。そして,他方のチップのx16は1本余っています。これで4ソケットの場合は,対応するCPUチップ間を完全結合する2つのプレーンを作ります。そうすると,平均距離は1.25ホップで,総メモリバンド幅は170.4GB/s,XFIREバンド幅は143.3GB/sとなると書かれています。

  また,Istanbulから実装されたProbe Filterに関して,その構造と動作が発表されました。AMDはホストノードがスヌープをブロードキャストする方式で,今回分かったNehalem EXとはブロードキャストを行うエージェントが逆になっています。このホームノードのL3$の一部を輸出されたキャッシュラインを管理するスパースディレクトリとして使っています。このテーブルを見て,他のノードのキャッシュに格納されていない場合にはスヌープ(AMDはプローブと呼んでいる)を省略します。詳細な動作は,もう少し複雑で,輸出されている場合でもSharedの場合はスヌープは省略でき,輸出されたキャッシュラインの状態に適した動作を行うようになっています。これにより,HT3のトラフィックが減少し,また,メモリのアクセス時間も短縮できると書かれています。

  なお,2チップ入れて電力エンベロープは従来のIstanbulと同じということは,当然,電源電圧を下げクロック周波数を抑えていると思われます。

1.4 Intelの8コアNehalem EX

  Nehalem EXについては今年のISSCCで発表されており,2月14日の話題で紹介しています。ということで,あまり追加された情報は無いのですが,おさらいをしておくと,8コアと24MBという巨大L3$を搭載し,6.4GT/sのQPIリンクを4本,メモリコントローラを2個内蔵するチップです。

  今回,明らかになったのは,8個の3MBのL3$スライス間とコヒーレンスユニットの間の接続にリングバスを用いていると言う点と,従来,QPIはディレクトリベースのコヒーレンス機構を使うと説明されていたと記憶しているのですが,今回,ソースブロードキャストを行うスヌーププロトコルでコヒーレンシを維持していると発表されたことです。

inserted by FC2 system