20150321

最近の話題 2015年3月21日

１．NVIDIAがGT 2015でDeep Learningを大々的にプロモート

　　2015年3月17日～20日に掛けて，San Jose Convention Ceneterで開催されたGPU Technology Conferenceにおいて，NVIDIAはDeep Learningを大々的にプロモートしました。

　　Deep Learningは，人工の多層のニューラルネットを学習させる技術で，2月21日の話題で紹介したように，MicrosoftとGoogleが人間を超える認識率を達成するなど，実用に達してきているという感じがします。

　　今回のGTCでのJen-Hsun Huang CEOの基調講演では，新GPU，GPUを使った高性能のボックス，ハイエンドGPUのロードマップ，自動運転の4つの項目について発表されましたが，これら全ての項目に，and Deep Learningが付いています。

　　新GPUは次項に述べるTitan Xですが，Deep Learningの実行性能が16コアXeonに比べて20倍近い性能ということがアピールされました。そして，このTitan Xを4基搭載し，それにDeep Learning用の開発システムを登載したDIGITS DEVBOXが発表されました。お値段は$15,000で5月に入手できるようになるとのことです。DIGITSはオープンソースで提供されるとのことですから，Titan Xを自分で買ってシステムを組み上げる方が計算上は安上がりですが，DEVBOXを買う方が手間は省けます。

　　GPUのロードマップですが，2016年にPASCAL，2017年にVOLTAとなっています。昨年はPASCALまででしたので，2017年のVOLTAが追加になっています。VOLTAはSGEMM/WがPASCALの2倍弱となっています。

　　そして，PASCALはFP16（16ビットの浮動小数点数）のサポートやNVLINKが追加されるので，Deep Learningの性能がMaxwellの2倍となる発表されました。しかし，MaxwellアーキのTitan XでもFP16はサポートされているので，このあたりの計算の根拠は不明なところがあります。

　　Deep Learningによる高精度の画像認識が自動運転に重要な役割を果たすことは明らかです。基調講演では，障害物の多い地面を走るDARPAのDAVEというプロトタイプの自動運転の車のビデオを見せ，DAVEの頭脳に比べると3000倍の性能を持つDRIVE PXという製品を発表しました。お値段は$10,000で，5月からの提供開始とのことです。しかし，TEGRA X1が2個載っているボードが1万ドルはいいお値段です。自動運転の学習結果も入っているのでしょうか？

　そして，基調講演の最後に，Tesla MotorsのElon Musk CEOとの対談が行われました。Musk氏は，自動運転が近い将来に実現する。自動運転の車の方が安全になると述べましたが，自動運転の安全性を当局に納得させるにはシャドー運転などで，実績を積む必要がある，事故などの責任の所在などの問題があり，実用化には時間がかかると述べていました。また，世界中に存在する車の数を，毎年の生産量で割ると，全部の車が自動運転になるには数10年かかると述べていました。Huang CEOは持ち前のハイテンションでしたが，Musk CEOの方は物静かな語り口で，対談はあまり盛り上がりませんでした。

２．NVIDIAがTitan Xを発表

　　GTC 2015の基調講演の中で，Jen-Hsun Huang CEOは新GPUのTitan Xを発表しました。コンシューマ向けのハイエンドのGPUで，$999とのことです。この，Titan Xは3072 CUDAコアを集積し，単精度では7TFlopsという性能を誇ります。しかし，倍精度は0.2TFlopsと，申し訳程度についているという仕様で，いわゆるスパコンに使えるチップではありません。

　　GDDR5メモリのクロックは7Gbpsで，容量は12GBとなっています。そして，Titan Xの消費電力は250Wです。

　　これまでのGeForceの最上位モデルは980で，こちらは2048コアですから1.5倍の集積度です。

　　そして，Titan Xでは，16ビットのFP16をサポートしています。GPUは32ビット単位でレジスタを持っているので，FP16の場合は2つのデータが1個のレジスタエントリに入るx86のSIMDのようになるので，扱いは少し面倒になりますが，1クロックで2演算が実行でき，また，１つの変数あたりのメモリの使用量も必要メモリバンド幅も半減するので，その分，性能が上がります。

　　その分，精度は低くなりますが，画像処理や画像認識でイメージデータを扱う場合などはこれでも足りることが多いので，そのようなケースでは性能が倍増します。

　　基調講演では，AlexNetのDeep Learningを16コアのXeonでやると，43日かかるのが，Titan XとNVIDIAのcuDNNライブラリを使うと2.5日程度でできるという比較を示しました。XeonのケースがAVX2を使っているのかどうかは分かりませんが，演算能力からみて，この位の差が出るのはおかしくないと思われます。