最近の話題 2010年2月13日

ISSCC 2010でのプロセサの発表

1.Intelが6コアWestmereを発表

  Nehalemの32nmシュリンクであるWestmereについては,2コア版はArrandale,Clarkdaleとして製品化されていますが,今回のISSCCでは6コア版のGulftownです。Westmereは32nmシュリンクに加えて暗号化用のAES-NIの命令などが追加されていますが,ISSCCでの発表のポイントは省電力技術です。このWestmereの発表については2010年2月12日のPCWatchの後藤さんの記事が詳しく解説しています。

  Nehalemでも,動作していないコアの電源をカットするパワーゲートは使われていたのですが,Westmereでは,これをuncoreと呼ぶL3$やI/Oインタフェース部分にも拡張しています。

  なお,Gulgtwonのチップサイズは240mm2で,トランジスタ数は1.17B,TDPは130Wで4コアNehalemと同じです。4コア→6コアの増加に対して,ダイナミック電力は32nmシュリンクで大部分がカバーされますが,リークが問題で,この対策としてアンコア部のパワーゲートなどを採り入れたと考えられます。

  コアの電源を切る場合は,コアの状態をC6SRAMという専用のオンチップのSRAMに退避し,復旧時にはそこから状態を復元するので,高速に復帰できるようになっています。一方,L3$の電源を切る場合は,ダーティなキャッシュラインをメインメモリに吐き出すようです。どれだけダーティーなラインがあるかによりますが,かなりの時間とエネルギーを必要とする処理で,短時間で再度パワーオンされると,性能的にもエネルギー的にもロスになってしまうので,どういう条件でパワーオフしているのか興味深いところです。

  リーク電力の比重が高いSRAMに関しては,密度が重要なL3$のSRAMは,セルサイズが0.171um2で最小保持電圧は0.75V,L3TagとC6SRAMには0.199um2で0.65Vの保持電圧のセル,そしてL2$には0.256um2で0.56Vのセルが使われています。

2.AMDは初のFusionチップであるLlanoを発表

  AMDはCPU,GPUを統合する最初のFusionチップであるLlanoについて発表しました。正確に言うとLlanoチップ全体ではなく,LlanoのCPUコア部分だけについての発表で,どのようなGPUが載っているか,CPUとGPUがどう繋がっているか,グラフィックスメモリはどう繋がっているかなど,一番,興味深い点は今回の発表には含まれていません。

  CPUコアですが,Adavanced Programを見た時はBulldozerコアかと思い,昨年12月5日の話題にもそう書いたのですが,現在のShanghai,Istanbulと同じK10hコアでした。但し,半導体プロセスが32nm SOIになり,各コアに専属のL2$が従来45nmパーツから倍増して1MBとなっています。また,リオーだバッファやリザベーションステーションのエントリ数も増加し,浮動小数点演算や整数の割り算のレーテンシも改善されているようです。

  この32nmコアは9.69mm2で,トランジスタ数は110Mだそうです。また,コアに1MBのL2$などを加えると17.7mm2となります。

  IntelのWestmereではパワーゲートにはPMOSトランジスタを使っているのは接合リークを考慮したためと思いますが,SOIなので,AMDはNMOSトランジスタでパワーゲートを行っています。同一サイズならNMOSの方が電流が取れるので,同一電流なら小さいトランジスタで済み,チップ面積を節約できます。しかし,LlanoのコアとL2$を囲むパワーゲートトランジスタのチャネル幅は1m(メートル)だそうです。このパワーゲートトランジスタはリークが多くては役に立たないので,High Vthの低リークトランジスタが使われるので,チャネル幅が1mでも飽和電流はせいぜい600〜700A程度と思われます。コアのTDPは25W となっていますから20A程度の電流を流す必要があり,Onの時の電圧ドロップを10mVかそれ以下に抑えようとすると,この程度のサイズが必要というのは理解できます。

  また,ダイナミック電力の削減に関しては,クロック分配系の改善を上げています。クロックスキューを小さくするため,高速プロセサではクロックグリッドという手法が用いられてきたのですが,チップ全域に広がるグリッドは配線容量が多くなり消費電力が増大します。これに対して,Llanoではクロック負荷の少ない領域ではグリッドを間引いて配線容量を減らして消費電力を減らしています。通常のロジックでは比較的スイッチ頻度の高い部分でも10サイクルに1回くらいしかスイッチしないのですが,クロックは1サイクルに2回スイッチするので,クロック部分での容量削減は効果的です。

  但し,単純にグリッドを間引くとクロックスキューが増えてサイクルタイムのロスが増えてしまうので,Intelと同様に何らかの補正回路を組み込んでいるのではないかと思われます。

  今回の発表に関して技術的に一番詳しいのは,2010年2月10日のSemiaccurateのCharlie Demerjian氏の記事です。また,ISSCCでは発表されていないと思いますが,2010年2月8日のThe Inquirerの記事にLlanoチップと思しき写真が載っています。それによると,チップの下側の1/4程度を占めているのがGPUではないかと思われます。また,CPUコアとの比例で考えるとLlanoのチップサイズは158mm2程度と考えられます。

3.Intelの48コアプロセサ

  ISSCC 2010でIntelは48コアのタイル型のプロセサを発表しました。これについて2010年2月9日のTech On!が報じています。

  基本の構成単位は2コアのペアで,これが6x4の行列で並んでおり,チップサイズは26.5x21.4mmとかなり大きなチップです。そして電源1.14Vで1GHz動作の場合の消費電力は125Wとなっています。各コアは256KBのL2$を持ち,2コアのペアに16KBのMessage Passing Bufferと5ポートのルーターをもっています。

  そして,IntelはこのMPBの間でデータを転送するMPIに似たライブラリを用意したとのことです。

  ルーターの通過レーテンシは4サイクルで,各ポートのバンド幅は64GB/sだそうです。

4.IBMのPOWER7 

  ISSCC 2010でIBMはPOWER7プロセサを発表しました。これの発表に関して,2010年2月9日のThe Registerが報じています。しかし,POWER7は昨年8月のHot Chipsで発表されており,それに加える新しい情報は少なかったようです。このHotChipsでの発表は2009年8月29日の話題で紹介しています。

  POWER7は8コアで,各コアは32KB+32KBのL1$と256KBのL2$を持ち,更に同一チップに32MBのeDRAMのL3$を集積しています。半導体プロセスは45nm CMOS SOIで,トランジスタ数は1.2Bですが,これはL3$がeDRAMでトランジスタ数と面積が少なくて済むためで,これを通常の6Tr SRAMで作れば2BTrを超える筈です。

  チップサイズは567mm2で,同時に発表された製品ではクロックは3GHzから3.8GHzであり,4コアだけを動作させるTurboCoreモードでは4.1GHzまでクロックアップできるようになっています。消費電力については発表されていませんが,昨年11月のSC09での展示では,4GHz動作で200Wと表示されていました。

  POWER6までは2コアで,L3$は外付けの別チップだったのですが,今回,eDRAMで内蔵したことによりL3$のレーテンシが1/3に減少したとのことです。また,クロックはPOWER6+に比べて下がったのですが,このL3$内蔵と,In-Order実行からOut-of-Order実行に変更したことなどにより,3GHz動作のPOWER7は,コアあたりの性能でも5GHz動作のPOWER6を上回るとのことです。

5.Sunの16コアRainbow Falls

  Sunは,16コアのRainbow Fallsプロセサを発表しました。これも昨年8月のHotchipsで発表されていますが,この時の発表はマイクロアーキテクチャに限定した発表で,今回は物理的なチップの発表が中心です。

  2010年2月9日のPCWatchがこの発表を報じています。それによると,Rainbow Fallsは16コアx8スレッドで,1チップで合計128スレッドを走らせるプロセサで,TSMCの40nm GPプロセスで製造されます。チップサイズは377mm2で,2GHz動作時の消費電力は120Wとのことです。配線は11層Cu配線で,トランジスタ数は約1Bとなっています。

  16個のコアは2個づつペアでCCXと呼ぶ8x9のクロスバに接続されており,このクロスバの帯域は461GBと発表されています。

  

inserted by FC2 system