最近の話題 2014 年3月29日

1.NVIDIAが新GPU Pascalを 発表

  2014年3月24〜27日に開催された GPU Technology Conferenceの基調講演で,NVIDIAのJen-Hsun Huang CEOがMaxwellに次ぐ新アー キテクチャのGPU Pascalを発表しました。Maxwellもミッドレンジのチップが出たところで,ハイエンドのチップは,まだ,出ていないのですが,その次の2016 年に出荷予定のチップをアナウンスしたものです。

  昨年のGTCでは,Maxwellの次ぎはVoltaというコードネームだったのです が,それがPascalになりました。大きな特徴は,グラフィックメモリとしてHigh Bandwidth Memoryを使い,メモリバンド幅を512GB/s〜1TB/sまで引き上げた点と,NVLinkと呼ぶ高速リンクを出し,GPU同士,あるいはGPU とCPUを繋ぐ機能が入っている点です。

  発表されたPascalの写真では4個のHBMが2.5D実装されており,HBMの当初 の1Gbit/sの転送速度では512GB/s,2Gbit/sのHBMが出れば1TB/sが実現できます。現在のKepler GPUではメモリバンド幅は288GB/sですから,かなりのバンド幅アップとなります。ただし,HBMはGDDR5と比べて容量は2倍と言っており,GDDR5 12個 と比べるとHBM 4個だと,デバイスメモリの容量は小さくなります。ただし,これはモックアップなので,2年後も同じ個数とは限らないとSumit Gupta氏は言ってました。

  NVLinkは8bit幅で 20Gbit/sで伝送するもので,1ブロックで出,入りそれぞれ20GB/sのバンド幅をもっています。これが4ブロック出てお り,80GB/s×2(出,入り)となります。これはPCIe3.0の10倍の速度です。NVIDIAは5倍から12倍と言っているので,2ブロック(あ るいは10Gbit/s)のものや,20Gbit /sではなく,24Gbit/sというバリエーションがあると思われます。

  NVLinkのV1.0では,CPUやGPUのメモリが同一のアドレス空間に配置され, どこのメモリでもアクセスできるようになるのですが,実態はCUDA6のようにページ単位でアクティブなメモリが移動すると思われます。このような転送を サポートするため,NVLinkはDMA+と呼ぶ機能をもっています。+は何かと質問したのですが,明確な答えは得られませんでした。

  そして,NVLink2.0 になるとキャッシュライン単位でコヒーレンスが維持され,マルチソケットのCPUのような共通メモリになる予定です。

  NVLinkをサポートするCPUの開発 をコミットしているのは,現状ではIBMのPOWERだけで,その他のメーカーにも声をかけているとのことです。

2.NVIDIAがTitan Zを発表

  NVIDIAはGK110チップを使い,1415 コアを活かした最上位グラフィックスボード としてGTX Titanを販売していますが,Jen Hsun Huang CEOの基調講演の中で,これの上位となる Titan Zを発表しました。Titan Zでは15コア全部を活かしたGK110チップを2チップ搭載し,単精度で8TFlops,倍精度は2.33TFlopsという性能になり,グラフィック メモリも全体では12GBとなり ます。これで$2999とのことですから,GPUの性能が活かせる用途なら,お買い得です。

  というと,製造が習熟してきて,全コア良品が多く取れるようになったので,これを2組載 せただけのボード と思われるかもしれませんが,少し,新しい仕掛けが入っています。GK110チップは温度などの状態でブーストがかかったりしますが,HPCで2チップ で分担して処理を行わせている場合は計算の終了は遅い方に引っ張られるので,片方だけ速く なっても無意味で,両方の処理タイミングが非同期になると異常 な事態になる恐れもあります。

  このため,Titan Zでは,2個のGK110チップのクロックを合わせる機能が入っています。

3.日本のエクサスケールシステムの方向性(補足)

  GTC の会場で,東工大の松岡先生に出会ったら,いきなり「それが,ないんですよ。」と言われて面食らったのですが,先週の話題で,4096並列のSIMDは考えにくいので,な にか構造があると書いたことに関するコメントでした。

  初期のGPUは全頂点,全ピクセルに同じ処理を行う長いSIMDで良かったのです が,CUDAなどで汎用処理を行うようになって,複数のプログラムを実行するという機能が強化されてきました。これが,先週,私が,4096をひとまとめ ではなく,何か構造があるのではないかと書いた理由なのですが,松岡先生も同じことを心配されておられるようです。

  一方,同じくGTCで出会った,筑波大の児玉先生に伺ったら,筑波大のPACS-Gは 4096並列のSIMDで,階層構造はないとのことでした。4096演算器を一 つのプログラムで動かして大丈夫ですかと質問したのですが,アプリの検討 グループがスタディーしてRM/CO(小メモリ容量,演算重視)と分類したアプリは,この4096並列のSIMDで効率よく処理できるとのことでした。

  命令処理部分の比重を極力小さく抑 え,50GFlos/W(1EFlopsを20MWで実現)を目指すとのことでした。

@1230078


inserted by FC2 system