最近の話題 2014 年3月29日

最近の話題 2014 年3月29日

１．NVIDIAが新GPU　Pascalを発表

　　２０１４年３月２４～２７日に開催された GPU Technology Conferenceの基調講演で，NVIDIAのJen-Hsun Huang CEOがMaxwellに次ぐ新アーキテクチャのGPU Pascalを発表しました。Maxwellもミッドレンジのチップが出たところで，ハイエンドのチップは，まだ，出ていないのですが，その次の２０１６年に出荷予定のチップをアナウンスしたものです。

　　昨年のGTCでは，Maxwellの次ぎはVoltaというコードネームだったのですが，それがPascalになりました。大きな特徴は，グラフィックメモリとしてHigh Bandwidth Memoryを使い，メモリバンド幅を512GB/s～1TB/sまで引き上げた点と，NVLinkと呼ぶ高速リンクを出し，GPU同士，あるいはGPU とCPUを繋ぐ機能が入っている点です。

　　発表されたPascalの写真では4個のHBMが2.5D実装されており，HBMの当初の1Gbit/sの転送速度では512GB/s，2Gbit/sのHBMが出れば1TB/sが実現できます。現在のKepler GPUではメモリバンド幅は288GB/sですから，かなりのバンド幅アップとなります。ただし，HBMはGDDR5と比べて容量は2倍と言っており，GDDR5　12個と比べるとHBM 4個だと，デバイスメモリの容量は小さくなります。ただし，これはモックアップなので，2年後も同じ個数とは限らないとSumit Gupta氏は言ってました。

　　NVLinkは8bit幅で 20Gbit/sで伝送するもので，1ブロックで出，入りそれぞれ20GB/sのバンド幅をもっています。これが4ブロック出ており，80GB/s×2（出，入り）となります。これはPCIe3.0の１0倍の速度です。NVIDIAは5倍から12倍と言っているので，2ブロック（あるいは10Gbit/s）のものや，20Gbit /sではなく，24Gbit/sというバリエーションがあると思われます。

　　NVLinkのV1.0では，CPUやGPUのメモリが同一のアドレス空間に配置され，どこのメモリでもアクセスできるようになるのですが，実態はCUDA6のようにページ単位でアクティブなメモリが移動すると思われます。このような転送をサポートするため，NVLinkはDMA+と呼ぶ機能をもっています。＋は何かと質問したのですが，明確な答えは得られませんでした。

　　そして，NVLink2.0 になるとキャッシュライン単位でコヒーレンスが維持され，マルチソケットのCPUのような共通メモリになる予定です。

　　NVLinkをサポートするCPUの開発をコミットしているのは，現状ではIBMのPOWERだけで，その他のメーカーにも声をかけているとのことです。

２．NVIDIAがTitan Zを発表

　　NVIDIAはGK110チップを使い，1415 コアを活かした最上位グラフィックスボードとしてGTX Titanを販売していますが，Jen Hsun Huang CEOの基調講演の中で，これの上位となる Titan Zを発表しました。Titan Zでは15コア全部を活かしたGK110チップを2チップ搭載し，単精度で8TFlops，倍精度は2.33TFlopsという性能になり，グラフィックメモリも全体では12GBとなります。これで$2999とのことですから，GPUの性能が活かせる用途なら，お買い得です。

　　というと，製造が習熟してきて，全コア良品が多く取れるようになったので，これを2組載せただけのボードと思われるかもしれませんが，少し，新しい仕掛けが入っています。GK110チップは温度などの状態でブーストがかかったりしますが，HPCで2チップで分担して処理を行わせている場合は計算の終了は遅い方に引っ張られるので，片方だけ速くなっても無意味で，両方の処理タイミングが非同期になると異常な事態になる恐れもあります。

　　このため，Titan Zでは，2個のGK110チップのクロックを合わせる機能が入っています。

３．日本のエクサスケールシステムの方向性（補足）

　　GTC の会場で，東工大の松岡先生に出会ったら，いきなり「それが，ないんですよ。」と言われて面食らったのですが，先週の話題で，4096並列のSIMDは考えにくいので，なにか構造があると書いたことに関するコメントでした。

　　初期のGPUは全頂点，全ピクセルに同じ処理を行う長いSIMDで良かったのですが，CUDAなどで汎用処理を行うようになって，複数のプログラムを実行するという機能が強化されてきました。これが，先週，私が，4096をひとまとめではなく，何か構造があるのではないかと書いた理由なのですが，松岡先生も同じことを心配されておられるようです。

　　一方，同じくGTCで出会った，筑波大の児玉先生に伺ったら，筑波大のPACS-Gは 4096並列のSIMDで，階層構造はないとのことでした。4096演算器を一つのプログラムで動かして大丈夫ですかと質問したのですが，アプリの検討グループがスタディーしてRM/CO（小メモリ容量，演算重視）と分類したアプリは，この4096並列のSIMDで効率よく処理できるとのことでした。

　　命令処理部分の比重を極力小さく抑え，50GFlos/W（1EFlopsを20MWで実現）を目指すとのことでした。

@1230078