最近の話題 2018年8月18日

1.NVIDIAがレイトレーシングコアを内蔵するTuring GPUを発表

  2018年8月15日のPC Watchが,NVIDIAのTuring GPUの発表を報じています。後藤さんの記事で,Siggraphでの発表を直接取材された記事と思われ,これが一番詳しいのではないかと思います。

  Turingの特徴は,RTコアと呼ぶレイトレーシングの処理を加速するコアを搭載したことです。現在,主流のGPUの描画は平面を指定の色で塗りつぶす方式で,平面を細分化したり,平面の明るさや色を光の反射を考慮して各ピクセルの色を決めるなどの方法で,迫真度を高めていますが,多重反射などは扱えていません。

  これに対して,レイトレーシングは光線がどこにあたり,どのように反射するかを光線ごとに順に計算していくという方法で,物理現象をそのまま計算しており,多重反射なども扱えます。なお,光線を光源から順方向にトレースしていくと,目には入らない多くの光線を計算することになり,効率が悪いので,目から逆に光源方向に目に入る光線だけを計算する方法がとられます。

  レイトレーシングは非常に高品質の画像が作れますので,映画の画像の作成などには用いられていますが,計算量が多いので,リアルタイムには処理できません。

  これをTuringのRTコアでは10Giga Ray/sで処理することができます。MicrosoftのDirectX Ray Tracingの場合,Pascal GPUでの実行の6倍の性能とのことです。NVIDIAの発表では25倍という数字もあり,こちらはレイトレーシングのコア部分の処理だけの性能比と思われます。10GRay/sは,多重反射の仕方にもよりますが,PCゲームの表示をリアルタイムでレイトレースで描画することができると思われます。

  そして,TuringはRTコア以外に4608個のCUDAコアを持ち,FP32では16TFlopsのピーク演算性能を持ちます。また,ディープラーニングのTensorコアも持っています。TensorコアはこれまでのFP16の積和演算だけでなく,INT8,INT4での積和演算もできるようになっており,500TOpsというのはINT4での計算と思われ,FP16では125TFlopsで,V100のTensor Coreと同じ性能です。

  さらに,Turingは2本のNVLink2を持っており,GPU同士を繋いでデータのやり取りができるようになっています。バンド幅は最大100GB/sです。

  メモリはHBM2ではなく,GDDR6で384bit幅で,メモリバンド幅は672GB/sとなっています。

  TuringはVolta V100と同じ12nmプロセスで作られ,754mm2のチップに18.6Bトランジスタを集積しています。使用から言うとTuringの方が大きそうですが,V100は815mm2,21BTrで,TuringはVoltaより多少小さいチップになっています。ただし,CUDAコアの数,Tonsor Coreの性能,L2$の容量などは同じであり,大きな違いはNVLink2が6ポートか2ポートかとメモリの違い位で,なぜ,Turingの方がチップサイズやトランジスタ数が小さいのかは分かりません。作り直して,トランジスタ数やチップ面積を減らすことが出来たのではないかと思われます。

  製品としては,RTX 5000,6000,8000という3種のグラフィックスボードが発表されました。RTX 5000はメモリが16GBで,6GRays/s,RTX 6000はメモリが24GBで10GRays/s,RTX 8000は48GBで10GRays/sとなっています。なお,2枚のボードをNVLinkで繋げば,GPUからアクセスできるメモリ容量は2倍に増えます。出荷は今年の4Qからで,お値段は,順に$2,300,$6,300,$10,000で,プロ向けのQuadroとは言え,かなりのお値段です。

  また,2枚のRTX 8000ボードをNVLinkで繋いだペアを4組搭載するNVIDIA RTXサーバも発売されます。今年Q4にアーリーアクセスで,一般発売は来年1Qの予定です。フィルムスタジオなどでは,こちらの方が利用効率が高く,効率がよさそうです。

2.ARMがDeimosとHerculesを含むロードマップを発表

  2018年8月16日のSemiAccurateが,ARMのCPUのロードマップを報じています。今年はCortex-A76ですが,2019年には7nmプロセスのDeimos,2020年には7nm/5nmのHerculesを出すというロードマップです。

  ARMが書いたIntel CPUとの性能比較のグラフによると,Cortex-A76のシングルスレッド性能は,Core i7-7300Uと同程度で,Deimos,Herculesの時期には,IntelのCore CPUの性能トレンドの延長線を上回るという図になっています。この図には消費電力が考慮されていませんが,Core CPUは15Wに対してARM CPUは5Wの電力で比較しているので,Perf/Wで比較すれば,既にARM CPUはIntel CPUを上回っています。

  そして,Deimos,Herculesの時代には1/3の電力でシングルスレッド性能でも上回るということになると,Intelにとっては大きな脅威です。そして,CaviumのThunderX2がサーバ領域で善戦しているのを見ると,この性能/Wの優位が加わり,さらに,Intelの10nmプロセスのもたつきを考えると,プロセサ市場の勢力図に変更がでてくる可能性があると思われます。

3.SiggraphでIntelがディスクリートGPUの開発を発表

  2018年8月16日のThe Inquirerが,ACMのグラフィックス関係の学会であるSIGGRAPHの場でIntelがGraphicsを(CPUから)解き放つというティーザービデオを発表したと報じています。具体的にどのようなGPUであるのかは分かりませんが,DX12互換のディスクリートGPUを2020年に出すとのことです。DX12はRay Tracingをサポートする予定であり,このIntelのGPUではNVIDIAのTuringのようなRay Traceのサポート機能の組み込みが考えられているのかも知れません。

  Intelは,昨年11月にAMDのRadeon Graphics Groupを率いていたRaja Koduri氏を獲得しており,同氏は新たに作られたCore and Visual Computing Groupを率いることが発表されています。

  IntelはAMDのVega GPUの採用も発表していますが,AMDのGPUを使い続けるとは考えにくく,自社のGPUをビジネスにしたいと考えているのは間違いないと思います。

4.スタートアップのAlphaICsのAIチップがNVIDIA GPUを負かした

  2018年8月13日のEE Timesが,AlphaICsというスタートアップのAIチップが,画像認識などで,NVIDIAのV100 GPUと比較して50%-400%高い性能を示したと報じています。AlphaICsはインドのバンガロールに本社を置く25人程度の規模のスタートアップで,創立者は,IntelでPentiumを設計し,その後,NexGenやSilicon Spiceを創立したVinod Dham氏だそうです。

  第1世代のAIチップが大量の積和演算を高速に実行するように作られているのに対して,第二世代は,CNNだけでなく,強化学習やLSTMなどより広範な問題に適用できるように作られています。GoogleのTPUやNVIDIAのGPUは,CPUと積和演算のアレイの間の通信がボトルネックになり性能が出ないと言います。

  これを,AlphaICsは同一チップに集積することで,ボトルネックを無くし,性能をあげているとのことです。

  AlphaICsは,RAP(Real AI Processing)-Eというエッジ向けのチップとRAP-CというHBM2を搭載するデータセンター向けのチップを計画しているとのことです。RAP-Eは32 Agentsを集積し,消費電力は13Wで,30DL-Topsとのことです。RAP-Cの性能は発表されていませんが,EE Timesの記事では,消費電力は100Wと書かれています。

  大手の電装品メーカーのVisteonと協力しており,AlphaICsのRAP-EプロセサのFPGA版にVisteonのエンジニアが書いたCNNの画像認識アルゴリズムを走らせたところ,V100に比べて50%-400%高い性能が得られたとのことです。

  AlphaICsのRAPというAIプロセサは,SIMA(Single Instruction Multiple Agents)というアーキテクチャで,SIMAのプロセサ群とTPUのような積和演算器をワンチップに集積し,SIMAコアとTPUのような演算器アレイの間にAgent memoryとクロスバという層が挟まれており,SIMAコアと演算器アレイが密につながっています。

  また,現在のAIチップの命令は抽象度が低くプログラミングがやりにくい。このため,RAPでは,Explore-All,Interact,Create Eventなどの命令を持ち,これらの命令はデコードでマイクロオペレ-ションに分解して実行するといいます。ハードウェアコアはゼロから設計を行ったのですが,かなり標準的なノンRISCのパイプラインになっているいうことです。

  プロセサは,テンソルが束になったAgentという単位で処理するので高い並列性が得られると書かれていますが,この記事の説明だけでは,処理のイメージはよく分かりません。


  

inserted by FC2 system