最近の話題 2010年8月28日

1.Hot ChipsでIntelが50Gbit/sの光伝送を発表

  7月31日の話題で紹介した50Gbit/sの光伝送を,Hot Chips 22においてIntelが発表しました。変調器はやはりMach-Zehnderでチップの長さは20mm程度といっていましたので,7月31日の記述は間違っていませんでした。何でRingモジュレータを使わないのと質問した人がいて,Ringは寸法も小さく,変調に必要なエネルギーも少なくて良い方式だけど,Ringの共振点を安定的に合わせるのが難しいからと答えていました。

  確かに,光を2分して半波長の光路差をつけて重ねるMach-Zehnderは,光路差が半波長から多少ずれてもかなりのOn/Off比が取れますが,Ringは共振波長が数nmずれると苦しいので理解できる答えです。Luxteraも製品化しているのはMach-Zehnderのようで,8月22日のチュートリアルではOracleの人はRingしか話していなかったのですが,まだ,研究段階ということでしょうね。

2.Hot Chipsで一番おもしろかった新Xbox 360のプロセサの発表

  Hot Chips 22でMicrosoftとIBMが連名で新Xbox 360のプロセサを発表しました。これまではPowerPC 3コアのCPUチップとAMD(のATI部門)のGPUチップを使っていたのですが,今回はIBMの45nm SOIプロセスを使い,CPUとGPUを同一チップに集積しています。このチップと10MBのeDRAMチップを2チップ搭載のマルチチップパッケージに載せています。

  この発表の何が面白かったかというと,TSMCのバルクプロセス用に設計されたATIのGPUのVerilogを貰い (買って),IBMとしては,どこが何をやっているのかが分からない状況(IBMの人はBlack Boxと言ってましたが,VerilogがあるのでBlack Boxは言い過ぎとしても)から,VerilogをIBMのマクロにマッピングして,フォーマルベリフィケーションを使ってATIのオリジナルとの論理の一致を検証したとのことです。また,パターンベースの検証も併用して,数回のメタル修正は必要としたもののバルク修正なしで乗り切ったとのことです。ATIとしては,中身を詳しく教えてノウハウが流出するのは好ましくないので必要最小限の情報提供というのは当然ですが,中身も分からず,IBMのASICライブラリにマッピングして作り上げるというところは流石です。

  ゲームコンソールでは性能を含めてゲームソフトの動きが変わるのはご法度なので,45nmのSOIプロセスになってもCPUやGPUのクロックは変わっていません。また,従来はCPUとGPUは別チップで,フロントサイドバスで結合されていたのですが,今回はワンチップになってもFSBR(FSB Replacement)というブロックを作って性能を低下させて,CPU-GPU間のレーテンシもバンド幅も従来の構成と一致させています。

  一方,ゲームプレイに関係の無い消費電力は60%減,コストに直結するシリコン面積は50%以上減っているとのことです。また,何故10MBのeDRAMを別チップにしたのかという質問に対しては,計算ではそちらの方がコストが安かったからとのことでした。

3.Hot Chipsで一番感心したAMDのBulldozerとBobcatコアの発表

  今回のHot ChipsでAMDは次世代のBulldozerとBobcatコアを発表しました。コアのアーキテクチャ的な面に絞った発表で,クロックや性能などの具体的な話はなく,また,製品としてどのような形になるのかも発表の対象外です。

  何が,感心したのかというと,とにかく,消費電力を徹底的に絞り込むということでマイクロアーキテクチャのトレードオフを取っている点です。

  Bulldozerは,もともと2コアで2スレッド実行という構成から,2スレッドで共有できる部分と共有すると大きく性能が落ちる部分に区別し,結局,整数演算パイプや1次データキャッシュはスレッドごとに持ち,浮動小数点演算パイプや,命令のフェッチ,デコード系は2スレッドで共有という構造になっています。これで,共用なしの2コアと比較して80%の性能をかなり少ないチップ面積と消費電力で実現できたと述べています。また,BTBも512エントリの1次BTBと5Kエントリの2次BTBという構造にしており,常時動く1次は消費電力を減らし,1次がミスした場合だけ動く2次BTBは大容量という構成です。そして,1次データキャッシュはWay predictionを使い,通常は1つのWayしかアクセスしないというやり方で電力を減らしたそうです。

  また,Bobcatでは,Out-of-Order実行のやり方として,データの移動を伴うFuture Fileのようなやり方は採らず,大きな物理レジスタファイルを使って,データの読み書きにともなう電力を減らしたと述べていました。また,各種のキューもシフトレジスタではなく,ポインタで位置を管理する方法を採り,電力を減らしているそうです。

  省電力が重要になり,各社ともクロックゲートの単位を細かくしたりしていますが,ここまでマイクロアーキに踏み込んで電力と性能のトレードオフを取るのは,結構手間がかかると思われるので,これには感心しました。しかし,これがどの程度効いているのかは,チップが発表されて,クロックや消費電力が出てこないと分かりません。

  また,Bulldozerの発表では,ゲート段数を減らした設計と述べられており,IBMのPOWER7のように高クロックを狙っているようです。プロセスも同じSOIですし,POWER7並みのクロックで出てくるのではないかと思われます。

@777875

inserted by FC2 system