最近の話題 2014年9月13日
1.NVIDIAは20nmのGPUチップを全てキャンセルか2014年9月8日のASCII.jpに,大原さんが,NVIDIAのGPUは,20nmプロセスでの製造が白紙になり,28nmでロードマップを再構築と書いておられます。
NVIDIAは,TSMCの28nmプロセスで,Maxwell GM107を今年2月に出し,その後は20nmプロセスに移行してMaxwell2.0アーキテクチャのGM200などを出す計画であったのですが,20nm製品は全て白紙になり,28nmプロセスでロードマップを再構築しているとのことです。
GM107の後,20nmプロセスのGM204が製造され,今年3月ころにサンプルがNVIDIAに納入されたのですが,動作周波数が上がらず,全然,性能が出なかったとのことです。
大原さんの記事によると,CPUのように部分的にホットスポットがある場合は良いが,GPUのようにチップ全面がホットスポットのチップでは性能が上がらないということが起こるのだそうです。
チップをテストしてみると,温度が上がると急速に動作周波数のマージンが減り,半分のクロックで動かすのも苦しいという状況で,NVIDIAとしては,20nmで作る予定であったGM204,GM206,そしてハイエンドのGM200も全てキャンセルとなったとのことです。ただし,規模が小さくて発熱の小さいGM208だけは予定通り20nmで製造するとのことです。
富士通のSPARC64 XIfxはTSMCの20nmプロセスで,社内ではすでに動作していると言われますが,こちらは水冷でチップ温度はせいぜい30℃ですから,問題にならないのかも知れません。
NVIDIAとしては新製品を出さないわけには行かないので,28nmでGM204を作り直して穴を埋めるという計画に変更するとのことです。28nmのままで性能を上げるにはチップを大きくする必要がありますが,28nmプロセスは安定してきており,コストが下がってきているので,何とかなるとのことです。
NVIDIAは,20nmは飛ばして16FFに行くことになりそうですが,こちらが予定通り量産が開始できるかどうかは,まだ,未知数です。
IntelはIDFにおいてHaswell EファミリプロセサをXeon E5-2600 v3という正式名称で発表しました。この発表はあちこちで報道されていますが,2014年9月8日のSemiAccurateの報道を引いて紹介します。
Grantleyの開発コードネームで呼ばれるこのチップは,18コアを集積し,5.69BTr,662mm2という巨大チップです。配置は少し変わっていて,4コアの列が3列と6コアの列が1列で,合計18コアとなっています。4コア4列ではホワイトスペースが出てしまうので,2コアを追加したという感じの作りです。
そして4コア2列の8コアのグループを回る互いに逆方向の2重のリングと,4コアと6コアの列の10コアを回る逆方向2重のリングを持ち,これらの2つのグループの間を2つのスイッチで接続しています。IntelのLLCは,ペアとなるコアのデータだけを保持するのではなく,チップ全体のL3$の一部なので,L2$をミスしたアクセスはリングやリング間スイッチを通して他のコアのLLCにアクセスを行います。このため,リングやスイッチはかなりビジーですが,スイッチの遅延は4サイクル,そしてリングの遅延も4サイクル程度とのことです。
この18コアのダイをIntelはHCCと呼び,6コアの列を切り落とした12コアのダイをMCCと呼んでいます。切り落とされる部分にはQPIのホームエージェントもDRAMインタフェースも含まれていないため,HCCとの違いはコア数とLCCの容量だけとなります。そして,12コアのMCCから1列を削除した8コアのダイをLCCと飛んでいます。この1列の削除にともないホームエージェントとDRAMインタフェースも1個ずつになってしまいます。なお,MCCは3.84BTrで492mm2,LCCは2.6BTrで354mm2となっています。
E5-2600 v3と呼ばれるこのチップファミリでは,QPIの最高速度が9.6GT/sに上がり,DRAMインタフェースはDDR4をサポートし,最高性能のチップではDDR4-2166をサポートしています。また,256bit幅で演算を行うAVX2をサポートしています。
しかし,SemiAccurateによると,AVXを使うとクロックが300〜400MHz下がるとのことです。例えば,最上位のE5-2699 v3の場合,ベースクロックは2.3GHz,全コアターボ時は2.8GHzですが,AVXを使うとベースクロックが1.9GHzに下がり,全コアターボ時は2.6GHzが最大クロックとなるとのことです。原因は消費電力ですが,AVX2で2倍の演算ができるのですから,それが15%くらい下がっても,結果としては1.7倍くらいの演算ができるわけで,損はないとも言えます。そして,1ms以上AVX命令を使わないとノーマルのクロックに戻るとのことで,AVXを使わないプログラムの場合は影響はありません。
2014年9月8日のHPCWireの記事に,現世代のE5-2697v2(12コア2.7GHz)と今回発表のE5-2699 v3(18コア2.3GHz)の性能比較のスライドが載っていますが,各種のCAEでは1.24倍,生命科学のアプリでは1.25倍,エネルギー関係のSEISでは1.32倍,気象シミュレーションでは1.39倍,金融関係では1.72倍の性能という結果です。当然,アプリ依存ですが,参考にはなります。
また,このチップではコアごとにクロックと電源電圧を最適化できるだけでなく,アンコアも独立にクロックと電源電圧を変えられるとのことです。コアはビジーだけど,メモリやIOへのアクセスは殆ど無いというような場合には消費電力を減らすことができます。
3.Haswell Eファミリは用途別に22品種を製品化
2014年9月9日のSemiAccurateが,Haswell Eファミリの製品化について報じています。Advanedと呼ぶ製品が5品種,Standaradが3品種,Basicが2品種で,それに加えて,セグメント向けに最適化という製品群が10品種と低電力の製品群2品種あります。
Advancedは12コア〜10コアでクロックは2.6GHz〜2.3GHz,TDPは135W〜105Wという製品で,QPIは9.6GT/s,DDR4-2166をサポートする汎用高性能の製品です。Standardは8コア〜6コアでクロックは2.6GHz〜2.4GHz,TDPは90W〜85Wで,QPIは8.0GT/s,DDR4-1866までのサポートとなっています。そして,Basicは6コアでクロックは1.9GHzと1.6GHzで,TDPは85W,QPIは6.4GT/s,DDR4-1600となっています。
Basicは6コアですから,コア数ではLCCダイで良いのですが,BasicのE5-2609 v3は,2つのホームエージェントを持ち,MCCダイを使っているとのことです。
セグメント最適化の5品種は18コア〜14コアで,コア数最大のE5-2699 v3は18コア,2.3GHzで145W,E5-2697 v3は14コアですが2.6GHzのクロックです。そして,周波数最適化というグループは4品種があり,8コア3.2GHz,6コア3.4GHz,4コア3.5GHzという品種があります。当然,QPIは9.6GT/s,メモリはDDR4-2166です。また,ワークステーションオンリーのE5-2687w v3という製品があり,10コアで3.1GHzクロックですが,TDPが160Wと一番大きくなっています。
低電力は12コア1.8GHzで65WのE5-2650L v3と8コアで1.8GHzで55WのE5-2630L v3があります。
LLCは各コアに2.5MBついているので,基本的にコア数×2.5MBの容量なのですが,周波数最適化のE5-2643 v3は6コアで20MB,E5-2637 v3は4コアで15MBとなっており,未使用の2コア分のLLCを生かして使っています。以前の世代では,未使用コアのLLCを使うことはできなかったのですが,E5-2600 v3では,これが可能になっています。
4.Intelが高密度サーバ向けプロセサXeon Dを発表
2014年9月12日のPC Watchが,IDFにおけるXeon Dの発表を報じています。これまでのIntelの高密度サーバ向けのプロセサはAtomベースのものでしたが,Xeon DはメインラインのコアアーキテクチャのBroadwellベースとなっています。そしてチップセットを同一パッケージに入れるMCCモジュール実装で,プリント基板の使用面積を減らして密度を高めます。
Xeon Dは14nmプロセスで作られ,消費電力は15Wとのことで,2015年前半に正式リリースの予定です。
米国の下院がAmerican Super Computing Leadership Actを可決したと,2014年9月8日の下院の科学,宇宙とテクノロジの委員会のサイトが書いています。
エクサスケールスパコンの開発は重要なので,中国に負けないようにちゃんと計画を作って実行しろと,エネルギー省にはっぱを掛ける法案ですが,具体的には何かに予算が付くのかどうか,この記述では良く分かりません。
7.Steve Scott氏がCRAYに復職2014年9月10日のInsideHPCが,Steve Scott氏がSr VP,CTOとしてCRAYに再入社したと報じています。Scott氏はCRAYのCTOだったのですが,CRAYがネットワーク部門をIntelに売却した2011年に,NVIDIAのTeslaユニットのCTOになり,さらに,2013年にGoogleに移籍していました。
しかし,これも短期間に終わり,CRAYに元の地位で復職したとのことです。7月に離職したWilliam Blake氏の後任となります。