最近の話題 2019年11月9日


1.MLPerfがMLPerf Inference 0.50.5ベンチマークの最初の結果を発表

  2019年11月6日にMLPerfがMLPerf Inference 0.5ベンチマークの結果を発表しました。ベンチマーク自体も0.5版で,まだ,最初の結果発表です。MLPerfは画像認識がResnet50-v1.5とMobileNets-v1 224でImageNetのデータを認識する処理がの2種,オブジェクト検出がSSD-ResNet34とSSD-MobileNets-v1でCOCOの高解像度と低解像度データを処理する2種,言語処理がGMNTでWMT16のデータを処理する1種の,合計5種類の処理が含まれています。

  そして,入力データの与え方として,一つの処理が終わったら次のデータを与えるStream,一定のレーテンシで複数のストリームのデータを与え,処理が間に合わないデータは時間切れとして扱うMultiple Stream,ポアソン到着で入力が与えられるSever,と開始時に全部のデータが与えられるOfflineというやり方があります。

  それから,モデルの構造などは規定されたものを使用し,プラットフォームとハードウェアの違いだけを比べるColosed Divisionとモデルを改良しても良いOpen Divisionという実行の仕方があり,全体では膨大な数のマスのある表になります。このため,今回公開された結果は,大部分のマスは空白となっています。


2.一時,NVIDIAがMLPerf Inference 0.50.5はNVIDIAの圧勝と発表

  このMLPerf結果のフルの表を見るのは難しく,NVIDIAはXeon,HabanaのGoya,GoogleのTPU3との比較を抜き出した棒グラフを示しました。この棒グラフは,今はNVIDIAのブログには見つからないのですが,2019年の11月6日のForbesでやEE-Timesのサイトで見られます。

  最初の棒グラフは,Offlineのシナリオでの5つのベンチマークの性能比較で,NVIDIAのTuringを1.0とする正規化を行っています。このグラフですが,MobileNet-v1ではXeon P9282が0.3程度の性能,ResNet-5.0 v.15では,Xeon CPUが0.2,Goyaが0.85,TPUv3が0.5,SSD-MobileNet-v1はXeon CPUが0.2,SSD-ResNet 34はGoyaが0.8,TPUv3が0.5,TPUv3が0.4,GNMTはTPUv3が0.55となっています。ここで,結果が書いてないベンチマークは測定値が提出されてない結果で,メーカーが狙う市場で有効なベンチマークではないので測定していない,あるいは,測定したが性能が思わしくないので提出を諦めたものと思われます。

  Forbesの記事にはサーバシナリオの比較の棒グラフも載っていますが,全てのグラフでTuringが他社のアクセラレータに勝っています。

  Forbesに載った比較はPer Processorと書かれていますので,複数のTPUv3やT4 GPUを使って測定した結果は個数が1個の場合に換算していると思われます。

  MobileNet v1のOfflineのIntelのXeonの測定は2チップシステムで,フルの表の性能値は29,203.30となっています。これは,1チップ換算では14,600程度となります。これに対してNVIDIAのT4 GPU×8は141,807であり,1チップ換算では11,726です。とすればIntel CPUの方が30%程度高いことになり,棒グラフとは合いません。

  次のResNet5.0v1.5 では,Turing×8の性能は44,977.8で1個当たりでは5,622です。これに対してIntelは5,965.6で,1個当たり3,000弱で0.52程度です。Goyaは14,451で0.4倍程度です。TPUv3は32,716で5.8倍の性能です。

  ということで,NVIDIAがどのようにこの比較の棒グラフを作っているのか良く分かりません。

  ただ,Deep Learningは安定性が悪く,ちょっと条件が変わると認識結果が大きく悪化するなどの問題が多いとのことで,結果が得られず空欄という結果が多い他社に比べて,NVIDIAが一番多くの欄を埋めているというのは間違いありません。その意味ではNVIDIAのMLは安定性が高いと言えるのかもしれません。

3.NVIDIAがJetson Xavier NXを発表

  2019年11月6日のEE TimesNVIDIAのJetson Xavier NXの発表を報じています。Jetsonは組み込みデバイス用のAIエンジンボードのファミリの名前です。Xavier NXはサイズは小型のJetson Nanoと同じ70×45mmですが,演算性能は最大21TOPS(INT8,FP16では6TFlops)とかなり高いML性能を持っています。そして,消費電力は10-15Wと比較的少なく,お値段も$399とお手頃で,使いやすい感じがします。

  ベースとなるGPUは384コアのVoltaで,それに48コアのTensorコアと2つのNVDLAコアが付いています。制御用のCPUとして6コアのCarmelと呼ぶARM CPUが付いています。CarmelはDenverの後継のARM CPUで,おおよそ,Cortex-A75並みの性能のようです。

4.AMDが第3世代のThreadripperの仕様を公表

  2019年11月7日のThe Inquirerが,ついにAMDが第3世代のThreadripperの仕様や価格を公開したと報じています。

  最上位のRyzen Threadripper 3970Xは32コア,64スレッドでクロックは3.7GHzから4.5GHz,最終レベルキャッシュは144MBとのことです。お値段は$1999です。Intelのi9 9980 XEは同程度の値段ですが,18コアしかないことを考えるとAMDの値段はバーゲンです。

  Threadripper 3960Xは24コア,48スレッドでクロックは3.8GHz-4.5GHzとなっています。LLCは140MBとわずかに小さくなっています。3970Xと3960XのTDPは280Wとなっています。これらのThreadripperのCPUチップは7nmプロセスで作られ,Threadripperとして88レーンのPCIe4.0を持っています。

  これらのThreadripperは11月25日に発売の予定です。

  16コアのRyzen 9 3950Xは$749で,同じく11月25日発売予定です。クロックは3.5GHz-4.5GHzで,L2+L3キャッシュは72MB,TDPは105Wとなっています。3950Xは色々なゲームで,IntelのCore i9-9980XEに勝る性能とのことです。

  ThreadripperはIOチップに4個の8コア CPUチップが付く構成ですが,Ryzen 9はIOチップに2個のCPUチップという構成です。Ryzen 9は,PCIe4.0は20レーン,DDR4も2CHとなっており,IOチップ自体もThreadripperより小規模なチップとなっています。




inserted by FC2 system