最近の話題 2013年3月23日

1.NVIDIAがGPUのロードマップを発表

  2013年3月18日から21日にかけてSan Joseで開催されたNVIDIA主催のGPU Technology Conference(GTC 2013)において,NVIDIAが更新したハイエンドGPUのロードマップを発表しました。

  ハイエンドGPUは,Fermi,Keplerと来て,来年はMaxwellというところまでがこれまでのロードマップでしたが,この先にVoltaというGPUが付け加わりました。性能的には,DPFlops/WでKeplerの10倍程度のところに点が打ってあります。時期は書いてないのですが,これまでのハイエンドGPUは2年ごとに出ているので,2016年の製品と考えられます。

  TSMCのロードマップでは,2014年の16nm,2016年に10nmとなっており,2016年の製品とすると10nmは無理で,16nmプロセスがターゲットではないかと思われます。とすると,トランジスタ数では28nmプロセスのKeplerの3〜4倍と見込まれるので,クロックを引き上げるにしても10倍のDPFlopsは難しく,電力を下げてくるということも考えられます。

  Maxwellでは,Unified Virtual Memoryという機能がサポートされるとのことで,論理的にはCPUメモリとGPUメモリの区別なく使用することができるようにまります。但し,両者のメモリがPCIexpress経由で結ばれた別個のメモリであるという実態は変わらないので,効率的な転送ができるようにプログラムを書かないと性能が出ないということは変わりません。

  NVIDIAはGPUの仮想化をサポートしていますが,現状ではGPUでの実行が切れ目にならないと処理を切り替えられないので,HPCのような長時間走り続けるカーネルを実行してしまうと,切り替えまで長時間かかってしまうと問題がありますが,MaxwellではPre-emptionをサポートし,実行中のカーネルの状態をメモリにセーブして,他のカーネルの実行を開始することができるようになります。

  Voltaについては,今回の発表ではStacked DRAMとだけ書かれています。GPUの性能が上がるとそれに比例してメモリはバンド幅を上げる必要があるのですが,従来の技術の延長では難しくなってきています。これを解決する技術として期待されているのがDRAMチップをTSVでGPUチップに直結するという3D実装です。これなら,GPUとDRAMチップの間に多数本 の信号のTSV接続が出来,高い転送バンド幅が実現できます。

  しかし,高発熱のGPUチップの上に,何枚かのDRAMチップを載せると熱の逃げ道がふさがれてしまうという問題があります。また,GPUチップとDRAMチップの温度が違うとチップの熱膨張量が違ってくるので,チップ間を接続するTSVに横方向の力がかかり, 電源のOn/Offをを繰り返すと上下のチップを接続する部分が破断するという恐れがあります。前者の放熱のパスの問題はDRAMスタックとGPUチップをスタックせずにシリコンインタポーザで繋げば解決できますが,GPUチップとシリコンインタポーザの間の温度差の問題は残ります。

  シリコンは比較的熱膨張率が小さい材料ですが,TSVの間隔が詰まっているということは,上下のチップを接続する半田ボールあるいはCuピラーの高さもそれに比例して短くなっており,その分,許容できるすれの量も小さくなります。まあ,CAEも進歩していますから,電源の投入,切断時の接続面の両側のチップの熱膨張を計算し,どれだけのせん断応力が掛るかを計算することができる筈で,何回の温度サイクルに耐えられるかを見積もることができる筈です。

  XBoxのRed Ring of Death問題やほぼ同時期のNVIDIAのGPUが,熱膨張の差でチップとパッケージ間のソルダボールが破断して故障が頻発したという歴史があり,これらの二の舞にならないようにして欲しいところです。

2.NVIDIAがモバイル用SoCのロードマップを発表

  NVIDIA主催のGTC 2013において,NVIDIAがモバイル用のTegra SoCのロードマップを発表しました。

  NVIDIAはCortex A-15コアを4コア搭載するTegra 4と,A-9r4コアを4コアと,LTE対応のソフトウェアモデムを集積したTegra 4iを発表しており,その次は2014年にLoganと言うチップを出すというロードマップになっていました。今回,これに2015年にParkerというチップを付け加えました。

  LoganのCPUがどうなるのかは発表されていないのですが,GPU側はKeplerベースになることが発表されました。Tegra 4のGPUは演算が20bit長の浮動小数点演算ということでCUDAやOpenCLをサポートできないのですが,LoganではCUDAコア数は不明ですが,Keplerアーキになるので,CUDAが動くようになります。そして,OpenGLも最新の4.3がサポートされるとのことです。

  Tegra 4のARMコアは,ARMが論理設計したコアのライセンスを受け,物理設計はNVIDIAが独自に行ったものですが,NVIDIAは論理仕様は64ビットアーキのARMv8に準拠しますが,論理設計から独自に行うDenverというコアを開発して います。Parkerでは,このDenverコアが使われることが発表されました。ロードマップとしては,Parkerの性能はTegra 4の10倍となっていますが,これが何を意味するかは明らかではありません。

  ParkerはFinFETプロセスを使うと書かれており,TSMCの16nmプロセスを使うと考えられます。そして,GPUはMaxwellアーキテクチャとなるとのことです。

3.NVIDIAがVCAでサーバ市場に参入

  GTC 2013においてNVIDIAは,Visual Computing Applianceと呼ぶ製品を発表しました。VCAは8コアのXeonチップを2ソケット搭載し,それに最16個のハイエンドKepler GPUが付いています。

  これで最大16同時ユーザが,Xeon 1コアとKepler 1個を使うことができるというサーバです。Kepler GPUがどのようなものか詳細は明らかではありませんが,リモートグラフィックス機能を提供するK1,あるいはK2 GPUと同じものと考えられます。

  そして,K1はEntry Keplerチップを4個搭載し768CUDAコアで130W,K2はHigh End Keplerチップを2個搭載し3072CUDAコアで225Wと書かれています。このCUDAコアの数からみて,GK104,あるいはGK110チップを使っていても,生かされているSMXの個数はかなり少なくして,消費電力も抑えているようです。

  これらのボードやVCAのGPUには,GPUがレンダリングした絵を高速にH.264にコンバートしてインタネット経由で,強力な描画機能を持たないPCや携帯端末に送ることができます。このH.264コンバートは普通にローカルの画面に出すより遅延が少ないとのことで,ある程度,インタネットの遅延があっても,十分な応答性を確保できるとのことです。

  VCAの構成は8GPUのBASEと16GPUのMAXモデルがあり,それぞれ,最大8同時ユーザで$24,900,16同時ユーザで$39,900となっており,これに仮想化を行うハイパバイザソフトのラインセスがBASEは$2,400/年,MAXは$4,800/年となります。

  現在,VDAはAdobe,AutoDesk,Solidworksをサポートしており,例えはAdobeのCS6を使って絵を書くデザイナーが最大16人という比較的小規模な会社などで,このVCAを置き,各デザイナーは強力なGPUを持たない普通のPCを使って仕事をするというような使い方を見込んでいます。

  これだけだと,各でデザイナーにKelper GPUを入れたPCを使わせても同じですが,VCAの場合は同時ユーザが16人ということで,勤務時間中ずっと使うというモードでなければ,より多くのデザイナーがCVAをシェアできます。また,会社に置いたVCAに客先からアクセスして,アニメーションや動画を見せることができます。

  そして,AutoDeskやSolidworksのようなCADの場合は,設計データを持ち出す必要がないので,セキュリティーの問題が軽減されます。

  VCAはVARなどに販売し,VARがAdobeなどを組み込んで,顧客の要望に合わせたシステムを構築するというビジネスを考えています。なお,Adobe,AutoDesk,Solidworksなどのアプリソフトのライセンス料は上記のVCAの価格には含まれていません。

4.Pentium生誕20年

  2013年3月22日のThe Inquirerが,3月22日でPentiumが20歳になると報じています。それだけです。

 

  

inserted by FC2 system