最近の話題 2014年8月16日

1.NVIDIAがHot ChipsでDenverプロセサを発表

  2014年8月12日のEE TimesがNVIDIAのDenverプロセサの記事を報じています。8月11日のこの発表の時,EE TimesのRick Merritt氏は,筆者の席と空席を挟んだ隣の席に座っていて,パソコンを膝において,発表を聞きながら,記事を入力していました。

  発表が日本語でも,私にはこんな芸当はできないので,やはり,本物のプロの記者は違うなと感心して見ておりました。

  NVIDIAはTegra K1をタブレット用などとして開発しましたが,現在,販売されているのはARMのCortx-A15コアを4個搭載するもので,それ以外にDeverという自社開発の高性能ARMコアを使う版も出すということを発表しています。

  Deverについては,64bitのARMv8-Aアーキテクチャの高性能コアという以外は,殆ど情報が無かったのですが,今回の発表で,少し様子が見えてきました。Merritt氏の記事を紹介すると,性能はIntelのHaswellと同等程度(ただし,これはタブレットの状態で比較した場合で,Haswellに普通に電気を食わせた場合は,この限りではありません。)で,AppleのA7より10〜25%上と書かれています。また,Cortex-A57との性能比較は発表されたグラフには含まれていません。

  Denverの特徴は,ARMのバイナリを,メインメモリ上に取った最大128MBのOptimization Cacheに,最適化した形に変換して格納し,それを実行するという点です。ある意味,TransmetaのCruesoeやEfficionに近いやり方ですが,ARMの(大部分の)命令もそのまま実行できるようで,Transmetaの場合より,性能を出しやすいようです。

  Denverは整数2,浮動小数点2,ロードストア2と分岐の計7本の実行パイプラインを持ち,最大7命令を実行できると書かれています。しかし,最適化したコードで何命令並列に発行しているのかは明らかにされていません。

  そして,各コアのL1$は128+64KBで,2コアで共通の2MBで16wayのL2$をもっています。クロックは最大2.5GHzと書かれています。

  製造プロセス,チップサイズ,消費電力などは発表されませんでした。

2.MicrosoftがデータセンターサーバにFPGAを搭載

  2014年8月12日のEE Timesが,Hot Chips 26でのMicrosoftの発表について報じています。Microsoftは6月のISCAで,この論文を発表しているのですが,ISCAではFPGAの実装などについては触れていませんでした。

  具体的には,AlteraのStratix V GS D5という中規模のFPGAと8GBのDDR3-1333メモリを載せたCatapultと呼ぶ10cm角のメザニンカードを作り,これをサーバのマザーボードに平置きにする形で搭載します。物理的な接続はx8のPCIe3.0です。Catapultカードの消費電力は25Wで,これはPCIeコネクタから供給されます。

  特徴的なのは,このボードは4xの20Gbpsのトーラスネットワークのインタフェースを持っており,6×8枚のCatapultボード同士を接続できるようになっていることです。1台のサーバには1個のFPGAしかつながっていないのですが,このトーラスネットワーク経由で,複数のFPGAを使うアクセラレータを構成することができます。

  Microoftは1632台のサーバにCatapultボードを搭載し,Bingのサーチの処理の一部で,文章の中に,サーチする単語が何回出てくるかなどを数えています。FPGAで多数のマッチングエンジンを作り,並列にサーチを行わせることで,Bingのサーチのスループットを2倍に改善,あるいは,同じスループットならレーテンシを29%短縮できたと報告されました。

  ということで,2015年からはBingで実運用を始めるとのことです。また,他にもFPGAが使えそうなところがあるとのことです。

3.AMDがHot ChipsでSeattleを発表

  2014年8月11日のThe Registerが,Hot Chips 26でのAMDのSeattleの発表を報じています。Seattleは64bitアーキテクチャのCortex A-57コアを8個搭載したサーバ向けのARMプロセサで,Global Foundriesの28nmプロセスで製造され,クロックは2GHz以上となっています。

  1次キャッシュは各コアに48KB I$,32KB D$があり,2次キャッシュは2コアに共有の1MB,そして,8コア全体で共有のL3$があるという構成になっています。メモリはDDR3/4が2チャネルで1866MHzまでサポートしています。

  特徴的なことは,Cortex A-5プロセサで作られたSyystem Contorol Processorを搭載している点です。SCPは電力やシステム構成の制御,そしてセキュアブートなどTrustZoneの機能を行います。

  そして,Seattle 1個を搭載したuATXサイズのリファレンスボードを発表し,これは$2999で販売するとのことです。

  今回発表されたのは,ARMコアの製品ですが,AMDの野生猫シリーズのコアをそのまま置き換えた製品が作れるようにコア以外の回路やチップの配置などが考えられているとのことです。

4.Intelの14nmプロセス

 2014年8月11日のEE Timesが,Intelの14nmプロセスを使うBroadwellについて報じています。Intelは9月9日からIDFを開催し,そこでBroadwellを発表する予定ですが,そのプレビューとして,14nmプロセスの情報を出したようです。

 それによると,Finピッチは42nmで,これは22nmプロセスの0.70x。ゲートピッチは70nmで0.78x,配線ピッチは52nmで0.65x,Fin高さは42nmで,これは22nmプロセスの34nmの1.235xで,SRAMセルの面積は0.0588um2で,0.54xで,22nmプロセスと比較して,チップ面積はおおよそ0.53倍とのことです。

 ということで,ほぼ倍増のペースを保っています。他社の16nmとかのプロセスが,メタルは20nmプロセスとほぼ同じで,チップ面積が減らないのと比べると,Intelの14nmは本物です。

 そして,2014年8月11日のSemiAccurateによると,22nmではトランジスタはFin 3枚で作られていたのですが,14nmではFin高さが増えてチャネル長が長くなり,2枚のFinで済むようになったそうです。とすると,Finピッチが0.7xになっただけでなく,3枚→2枚効果が加わり,トランジスタの面積は0.47xとなります。ウエファの単価は上がっているのですが,この効果でトランジスタの単価は順調に下がっているとSemiAccurateは書いています。また,Intelは,露光コストが高くなるLitho Etch/Litho Etch方式の2重露光は使わず,セルフアラインの2重露光を使っているとのことです。

  ゲートとFinピッチを詰めることが難しく,14nmプロセスの量産化は予定よりほぼ1年遅れたのですが,現在は良い状態にあるとのことです。

5.Intelが超低電圧のBroadwell Yの情報を発表

  2014年8月11日のSemiAccurateが,IntelのULVのBroadwell Yについて報じています。最近のこの手のCPUはTDPを設定することが可能になっており,TDPの意味が分からなくなってきていますが,タブレットなどの用途ではTDPを3〜5Wに設定するとのことです。しかし,SemiAccurateは,制限をしなければ,TDPは15W程度と見ています。

  Broadwell Yの売りの一つはパッケージサイズの縮小で,Haswell Yが40×25×1.5mmであったのに対して,30×16.5×1.04mmとなり,タブレットの小型化,薄型化に貢献します。パッケージの薄型化のために,ダイの厚みを200umから170umに研磨し,更に,FIVRのインダクタを作るための3DLと呼ぶ小型のプリント板をチップの下側に付けています。この3DL部分はチップより下に出っ張るので,マザーボードに穴を開ける必要があります。また,カットされたマザーボードと3DLの間のスペースにキャパシタを付けています。FIVR電源のキャパシタでしょうか?

  FIVRは低電圧の領域では変換効率が下がってしまうので,Broadwell Yでは,低電圧の領域ではFIVRをバイパスして外部のVRから直接給電する機能が設けられているとのことです。また,必要な性能は低くても,電源電圧をある程度以下にはできないので,無駄に電力を消費している場合に対しては,CPUを間欠的に動作させて電力を減らすモードが設けられたとのことです。CPUの動作率は12.5%刻みで設定できます。 CPUのオンオフの周期は短いので,最低動作電圧より,消費電力が下がった状態を実現するのと同じ効果が得られます。なお,Broadwell Yは2コアで,電源電圧は独立に設定できますが,クロックは2コアとも同じで,このような動作率の調整は容易です。

  Broadwellは,基本的にはHaswellの14nmシュリンクですが,省電力という観点では改良がくわえられており,Broadwell Yでは,チップセットやIOデバイスのスロットリングが強化され,チップセットのアイドル電力は25%減,アクティブ電力は20%減とのことです。

  また,OoOスケジューラの強化,ロードストアフォワーディングの高速化,L2TLBのサイズ拡大,L2TLBのミスハンドラの強化,FP演算を5サイクルから3サイクルに短縮など,各種の細かい改善を積みかさね,約5%のIPC改善も行われているとのことです。

  GPUはHaswellの20EUから,24EUに強化され,4Kビデオもサポートするのですが,3〜5WのTDPでは,内部と外部のスクリーンに同時に4Kを供給することは出来ないと書かれています。




inserted by FC2 system