最近の話題 2020年6月20日

1.理研が富岳の記者勉強会を開催

  2020年6月17日に富岳の記者勉強会を開催しました。この記者勉強会で副センター長の佐藤先生が発表された資料に富岳のノード(48コアのチップ)あたりの性能は64GFlops,ブースト時70TFlopsと書かれています。そして,ラック当たりのノード数は384で,システム全体のノード数は158,976となっています。

  結果として,富岳のピーク演算性能は488PFlops(ブースト時537PFlops)ということになります。そして,重点アプリの内,GENESISは京コンピュータの125倍以上,NICAMは120倍以上の性能になり,京が10PFlopsならその100倍の1EFlopsクラスのスパコンという苦しい説明です。他のアプリは25倍~45倍以上という性能向上ですから,平均的には40倍程度がやっとという感じで,ピーク性能の向上の50倍弱とあまり乖離はありません。

  LINPACK性能だけを追求するのは意味がありませんが,ピークで京の50倍の性能ですから,ExaFlopsマシンというのは苦しいのは否めません。なぜ,1Exaではなく,0.5Exaになってしまったのかというと,ひとえにお金が足りなかったからではないかと思います。414ラックではなく,京コンピュータと同じ800ラックを並べれば本当のExaマシンになったのですが,お金が無いので,それだけのハードウェアを設置できません。

  米国は,Aurora,Frontier,El Capitanと3つのExaシステムを開発しており,中国もプロトタイプでは3種を開発しました。米中の背中は遠くなるばかりという悲哀を感じます。

  富岳はコロナ関係の研究のためにすでに全系が稼働して,検収前の動作試験を行っている段階です。

  なお,記者勉強会の資料ですが,中学生向けの資料のような感じで,記者の学力も落ちたのでしょうか?


2.IntelがCPUとFPGAのAI処理能力を強化した製品を発表

  2020年6月19日のEE Timesが,IntelがAI機能を強化したXeon Scalable CPUとStratix FPGAを発売すると報じています。

  Xeon Scalable CPUは第1世代でAVX-512,第2世代でDL Boostを搭載したのですが,今回発表の第3世代のCooper LakeではVNNI命令をBF16形式の浮動小数点数に使える拡張が行われました。INT8にVNNI命令は推論には良いのですが,トレーニングには精度不足ですが,今回の拡張でトレーニングにも使えるようになります。

  BF16のVNNI命令を使うとBF16のVNNI命令を使うとBF16のVNNI命令を使うと,トBF16のVNNI命令を使うとレーニングの性能は第2世代に比べて倍増しています。

  今回発売されたのは4-8ソケット用の製品で,1-2ソケット用の製品の発売は今年の後半になるとのことです。ただし,ハイパースケーラには既に1-2ソケット用も提供を行っているようです。

  第4世代のSapphire Rapidsは,Intel本社でシリコンをパワーオンしてテストしている状況です。Sapphire Rapidsは新しいAdvanced Matrix eXtension(AMX)命令をサポートするとのことです。

  また,IntelはStratx 10-NXというFPGAを発表しました。これまでのStratix 10MXのDSPブロックには2つの乗算器と2つのアキュムレータが入っていましたが,10-NXでは同じ面積にINT8の乗算器が30個,アキュムレータが30個が入り,INT8での演算性能が15倍に向上しています。

  Stratix 10-NXのブロック図では,FPGA本体にEMIBでHBMと高速Ethernetチップが3個,そしてPCIeチップが1個付いている絵が描いてあります。

  Stratix 10-NXの提供開始も今年の後半となっています。

  IntelはHabana LabsのAIチップだけでなく,CPU,FPGAもAI機能を強化する全方位作戦のようです。


3.MellanoxのSHARP

  2020年6月15日のHPC Wireが,スポンサー記事ですが,NVIDIA MellanoxのSHARP(Scalable Hierarchical Aggregation and Reduction Protocol)の記事を載せています。NVIDIAのDGX A100は8個のA100 GPUを搭載するサーバですが,それより多くのA100 GPUを必要とする場合はInfiniBandでつないでデータを送受する必要があります。

  ここで一番問題になるのが,全部のノードの計算結果の合計を取るとか全部のノードの計算の終了を待ち合わせるという場合です。これをノード間でデータを送受しあってやるのではなく,InfiniBand側でできることはネットワークでやって仕舞おうという考え方で,それを実現するプロトコルがSHARPです。

  記事に棒グラフが載っていますが,128台のDGX A100を使い,1024個のA100ノードのデータのAll-Reduceを行った場合の性能向上を示しています。グラフの横軸はメッセージサイズで4M~256MBの6本の棒グラフになっています。縦軸は性能向上率でメッセージサイズで性能が変わりますが,1.8倍~2.5倍というせいのうになっています。

  DGX A100の箱の中はNVLink2を使った方が速くなりそうですが,それぞれのA100 GPUごとにInfiniBandのアダプタを付けた形で測定を行っているようです。

  このようにInfiniBand側でGPUの動作を助けて全体で処理性能を上げる方向で成果を出していければ,NVIDIAがMellanoxを買収したメリットは大きいと思います。


  


  



  

inserted by FC2 system