20170311

最近の話題 2017年3月11日

１．理研が世界最大級のAIスパコンを設置

　　2017年3月7日のマイナビニュースが理研の革新知能統合研究センターが世界最大級のAIスパコンを設置すると報じています。理研の人工知能研究に使われるものですが，設置場所としては富士通の横浜データセンターに置かれるとのことです。

　　人工知能研究を加速するために使われるスパコンで，24台のNVIDIA DGX-1と32台のFujitsu Primergy RX2530 M2からなっています。ファイルはETERNUS DX200 S3を8台とDX100 S3　1台で構成されています。

　　DGX-1はNVIDIAのTesla P100 GPUを8個搭載しており，これが24台ですから，192個のP100が使われています。P100は，AIでは一般的な半精度浮動小数点演算では，約20TFlopsの演算性能をもっており，システム全体での演算性能は約4PFlopsとなります。このシステムは2017年4月から稼働の予定で，その時点では，国内では最大のAI演算性能となると見られます。

　　しかし，NVIDIAのSaturn VはDGX-1を125台使っており，それに比べると1/5程度の規模です。世界最大級はちょっと言い過ぎの感じです。

2． Imaginationが新しいFurianアーキテクチャのGPUを発表

　　2017年3月8日のEE TimesがImaginationのFurianアーキテクチャのGPUの発表を報じています。これまでの同社のRogueアーキテクチャのPowrVR GPUと比較してFurianは同性能で30%の電力低減，あるいは同電力で35%性能アップとのことです。ピクセルのフィルレートでは80%向上しており，ゲームでは70%-90%性能が向上すると書かれています。

　　RogueのALUは16パイプラインであったのに対して，FurianのALUは32パイプラインと倍増しています。ただし，RogueではFMAが2個に対して，FurianではFAとFMAになっており，演算器の利用率は上がるとのことですが，ピークでは32演算から48演算への強化になっています。

　　また，キャッシュの容量も増加しているとのことですが，詳細は明らかにされていません。

　　そして，Rogueでは12-16クラスタが最大だったのですが，Furianでは最大64クラスタまでスケーラビリティーがアップしています。

　　かつては50%を越えていたPowerVR GPUのシェアは，現在では30%程度に下がっており，これに対してARMのMali GPUのシェアが60%になっている状況で，Imaginationとしては，Furianに逆転を託すということになります。

３． IBMが5 Qubitの量子コンピュータIBM Qを発表

　　2017年3月6日のNatureがIBMの5 Qubitの量子コンピュータの発表を報じています。EE TimesがD-Waveの1/500とバカにするような記事を載せていたのですが，削除されたようで，今は見つかりません。

　　D-Waveの量子コンピュータは量子アニーリングで，整数問題などの最適解を求めるコンピュータですが，IBMの量子ビットは量子演算ができる汎用の量子ビットである点が異なります。

　　IBMは，この量子コンピュータを，有料ですが，クラウドで使用できる環境を提供しています。しかし，5Qubitでは通常のコンピュータの方が性能が高く，実用には使えず，量子計算の実験用という使い方に限られると思われます。なお，IBMは50 Qubitのマシンを開発するという計画を持っており，50Qubitになれば理論的な意味はあるのですが，エラー訂正を行う実用的なシステムでは数千Qubitが必要とのことで，量子コンピュータの実用までには，まだ，時間が掛かりそうです。

４．OCP SummitでMicrosoftがクラウドデータセンターの半分以上をARM化する計画を発表

　　2017年3月9日のThe Registerが，OCP SummitでMicrosoftがクラウドデータセンターの半分以上をARM化する計画を発表と報じています。用途としては，BingのWebサーチやインデックス付け，Azureクラウドのプラットフォーム，データベースサービス，オンラインストレージ，マシンラーニングと広範な用途をあげています。

　　Microsoftは，既に，Qualcommの48コアのCentirq 2400とCaviumの最大52コアのThunderX2チップへのWindows Server 2016の移植を行っており，社内でARMサーバの評価中とのことです。そして，OCPサミットではCentriq 2400でBing AIのトレーニングのデモを見せたとのことです。

　　ただし，これらは社内使用を目的としており，商品化する予定はないとのことで，数年以内に半分以上をARMサーバにというのが，Microsoftの全社的な方針なのか，発表者の希望的ステートメントなのか，はっきりしないところがあります。しかし，MicrosoftがCentriq 2400やThunderX2などのハイエンドARM SoCを本気で評価していることは確かです。

　　Microsoftなどの巨大クラウドセンターがARMに切り替え，加えて次項のAMDからの追い上げもあり，ハイマージンのXeonの売り上げが下がるとIntelにとっては死活問題です。　　

５．AMDがZenアーキテクチャの32コアNaplesを発表　　

　　2017年3月8日のThe Registerが，AMDのZenアーキテクチャの32コアNaplesの発表を報じています。Naplesは32コア，64スレッドで，DDR4-2400のメモリチャネルを8チャネル持ち，最大32枚のDIMMを接続できます。そして，I/OにはPCIe3.0を128レーン持っています。

　　そして，Infinity Fabric coherent interconnect というIntelのQPIのようなCPU間のインタコネクトをサポートしていて，2ソケットのNaplesを繋いで，64コアのSMPを構成することが出来ます。

　　発表時のデモでは，どちらも2ソケットで，IntelのE5-2699A v4と同じ44コアで，メモリも同じDDR4-1866を使った状態で，地震解析の計算はIntelが35秒に対して，Naplesは18秒とほぼ2倍の性能となっています。Naplesに対する最適化がうまく行っているデモでしょうから額面通りには受け取れませんが，悪い結果ではありません。

　　また，Xeonと比べて，Naplesの方がコア数が多く，DDR4の速度も速く，何とPCIeが驚異の128レーンです。そして，2ソケットのNaplesの間を直結するコヒーレントインタフェースを持つということで，殆ど全ての点でXeonを上回っている感じで，Intelにとっては強敵です。

　　なお，Naplesは4月から6月には量産が始まると見られています。

６．NVIDIAが組込み機器用AIスパコンJetson TX2を発表

　　2017年3月8日のThe InquirerがNVIDIAのJetson TX2の発表を報じています。Jetson TX1がMaxwellコアであったのに対して，Jetson TX2は次世代のPascalコアを搭載し，7.5W以下の電力で，性能は2倍と謳っています。CUDAコア数はTX1もTX2も256コアなので，クロックが2倍になったのでしょうか？

　　メモリはLPDDR４が64bit幅から128bit幅になり，メモリバンド幅が58.3GB/sと倍増しています。従って，バンド幅リミットのアプリケーションでは性能倍増は理解できます。

　　CPUは，TX1ではARMのCortex A57が4コアだったのですが，TX2ではこれに加えてデンバーが2コア追加されています。

　　車載のカメラ情報の処理ではMobileyeなどの競合メーカーがありますが，NVIDIAは着々とハードウェアを強化し，並行して開発キットも強化しているという感じです。

７．NVIDIAがハイパースケールデータセンター向けGPU HGX-1を発表

　　2017年3月9日のHPC WireがNVIDIAのHGX-1の発表を報じています。NVIDIAはディープラーニング用と銘打って2個のXeonに8台のP100 GPUを接続したDGX-1というボックスを販売していますが，Open ComputeではCPU側は各社がOCPの共通仕様に基づくサーバを作っています。

　　ということで，NVIDIAはOCPサミットで，DGX-1のGPUアクセラレータだけを取り出したHGX-1（HはHyperのHでハイパーデータセンター向け）を発表しました。HGX-1は8個のP100 GPUをNVLinkで結合したもので，CPUにはPCI Expressで繋がるようになっています。従って，OCP仕様で作られたどの会社のCPUボードにも接続できるというものとなっています。

　　OCPに適合した8 Pascalモジュールを作って，OCP仕様の大規模データセンターにPascal GPUを売り込もうという作戦です。最近，GoogleがNVIDIAのK80 GPUの提供を開始したようにシミュレーションやAI，ビッグデータでのGPUのニーズが増えており，データセンターとしても，より密結合の高性能GPUが使用可能になることはメリットがあると思われます。