最近の話題 2014年8月16日
1.NVIDIAがHot ChipsでDenverプロセサを発表
2014年8月12日のEE TimesがNVIDIAのDenverプロセサの記事を報じています。8月11日のこの発表の時,EE TimesのRick Merritt氏は,筆者の席と空席を挟んだ隣の席に座っていて,パソコンを膝において,発表を聞きながら,記事を入力していました。
発表が日本語でも,私にはこんな芸当はできないので,やはり,本物のプロの記者は違うなと感心して見ておりました。
NVIDIAはTegra K1をタブレット用などとして開発しましたが,現在,販売されているのはARMのCortx-A15コアを4個搭載するもので,それ以外にDeverという自社開発の高性能ARMコアを使う版も出すということを発表しています。
Deverについては,64bitのARMv8-Aアーキテクチャの高性能コアという以外は,殆ど情報が無かったのですが,今回の発表で,少し様子が見えてきました。Merritt氏の記事を紹介すると,性能はIntelのHaswellと同等程度(ただし,これはタブレットの状態で比較した場合で,Haswellに普通に電気を食わせた場合は,この限りではありません。)で,AppleのA7より10〜25%上と書かれています。また,Cortex-A57との性能比較は発表されたグラフには含まれていません。
Denverの特徴は,ARMのバイナリを,メインメモリ上に取った最大128MBのOptimization Cacheに,最適化した形に変換して格納し,それを実行するという点です。ある意味,TransmetaのCruesoeやEfficionに近いやり方ですが,ARMの(大部分の)命令もそのまま実行できるようで,Transmetaの場合より,性能を出しやすいようです。
Denverは整数2,浮動小数点2,ロードストア2と分岐の計7本の実行パイプラインを持ち,最大7命令を実行できると書かれています。しかし,最適化したコードで何命令並列に発行しているのかは明らかにされていません。
そして,各コアのL1$は128+64KBで,2コアで共通の2MBで16wayのL2$をもっています。クロックは最大2.5GHzと書かれています。
製造プロセス,チップサイズ,消費電力などは発表されませんでした。
2.MicrosoftがデータセンターサーバにFPGAを搭載
2014年8月12日のEE Timesが,Hot Chips 26でのMicrosoftの発表について報じています。Microsoftは6月のISCAで,この論文を発表しているのですが,ISCAではFPGAの実装などについては触れていませんでした。
具体的には,AlteraのStratix V GS D5という中規模のFPGAと8GBのDDR3-1333メモリを載せたCatapultと呼ぶ10cm角のメザニンカードを作り,これをサーバのマザーボードに平置きにする形で搭載します。物理的な接続はx8のPCIe3.0です。Catapultカードの消費電力は25Wで,これはPCIeコネクタから供給されます。
特徴的なのは,このボードは4xの20Gbpsのトーラスネットワークのインタフェースを持っており,6×8枚のCatapultボード同士を接続できるようになっていることです。1台のサーバには1個のFPGAしかつながっていないのですが,このトーラスネットワーク経由で,複数のFPGAを使うアクセラレータを構成することができます。
Microoftは1632台のサーバにCatapultボードを搭載し,Bingのサーチの処理の一部で,文章の中に,サーチする単語が何回出てくるかなどを数えています。FPGAで多数のマッチングエンジンを作り,並列にサーチを行わせることで,Bingのサーチのスループットを2倍に改善,あるいは,同じスループットならレーテンシを29%短縮できたと報告されました。
ということで,2015年からはBingで実運用を始めるとのことです。また,他にもFPGAが使えそうなところがあるとのことです。
3.AMDがHot ChipsでSeattleを発表
2014年8月11日のThe Registerが,Hot Chips 26でのAMDのSeattleの発表を報じています。Seattleは64bitアーキテクチャのCortex A-57コアを8個搭載したサーバ向けのARMプロセサで,Global Foundriesの28nmプロセスで製造され,クロックは2GHz以上となっています。
1次キャッシュは各コアに48KB I$,32KB D$があり,2次キャッシュは2コアに共有の1MB,そして,8コア全体で共有のL3$があるという構成になっています。メモリはDDR3/4が2チャネルで1866MHzまでサポートしています。
特徴的なことは,Cortex A-5プロセサで作られたSyystem Contorol Processorを搭載している点です。SCPは電力やシステム構成の制御,そしてセキュアブートなどTrustZoneの機能を行います。
そして,Seattle 1個を搭載したuATXサイズのリファレンスボードを発表し,これは$2999で販売するとのことです。
今回発表されたのは,ARMコアの製品ですが,AMDの野生猫シリーズのコアをそのまま置き換えた製品が作れるようにコア以外の回路やチップの配置などが考えられているとのことです。
4.Intelの14nmプロセス
2014年8月11日のEE Timesが,Intelの14nmプロセスを使うBroadwellについて報じています。Intelは9月9日からIDFを開催し,そこでBroadwellを発表する予定ですが,そのプレビューとして,14nmプロセスの情報を出したようです。
それによると,Finピッチは42nmで,これは22nmプロセスの0.70x。ゲートピッチは70nmで0.78x,配線ピッチは52nmで0.65x,Fin高さは42nmで,これは22nmプロセスの34nmの1.235xで,SRAMセルの面積は0.0588um2で,0.54xで,22nmプロセスと比較して,チップ面積はおおよそ0.53倍とのことです。
ということで,ほぼ倍増のペースを保っています。他社の16nmとかのプロセスが,メタルは20nmプロセスとほぼ同じで,チップ面積が減らないのと比べると,Intelの14nmは本物です。
そして,2014年8月11日のSemiAccurateによると,22nmではトランジスタはFin 3枚で作られていたのですが,14nmではFin高さが増えてチャネル長が長くなり,2枚のFinで済むようになったそうです。とすると,Finピッチが0.7xになっただけでなく,3枚→2枚効果が加わり,トランジスタの面積は0.47xとなります。ウエファの単価は上がっているのですが,この効果でトランジスタの単価は順調に下がっているとSemiAccurateは書いています。また,Intelは,露光コストが高くなるLitho Etch/Litho Etch方式の2重露光は使わず,セルフアラインの2重露光を使っているとのことです。
ゲートとFinピッチを詰めることが難しく,14nmプロセスの量産化は予定よりほぼ1年遅れたのですが,現在は良い状態にあるとのことです。
5.Intelが超低電圧のBroadwell Yの情報を発表