20200718

最近の話題 2020年7月18日

１．DDR5メモリの規格が正式決定

　　2020年７月16日のThe Registerが，JEDECのDDR5 SDRAMの規格の正式決定を報じています。DDR4のデータ転送速度は1600-3200MT/sでしたが，DDR5ではバースト長を16に増やして3200MT/s-6400MT/sに引き上げられます。またDIMMの容量も最大16GB，UDIMMで32GBでしたが，DDR5では64GB，UDIMMでは128GB」に引き上げられます。そして大スタッキングを使えば最大4TBまで行けるとのことです。

　　そして，データセンタのサーバでは大容量のメモリが使われ，消費電力が増えていることに対応し，電源電圧1.2Vから1.1Vに下げます。DDR5のDIMMはDDR4と同じ288ピンですが，DDR4 DIMMとは非互換になっています。これは，各世代のDIMMが非互換になっているのと同じです。

　　DDR5 DRAMはIntelのSapphire Rapid CPUと同時に出てくる予定で，AMDのGenoa EPYCプロセサもDDR5対応になります。この時期はLBNLに設置されるPerlmutterスパコンとANLに設置されるAuroraスパコンのスケジュールから決まっているようです。

２．Dongarra教授らがExaスパコン向きのFFTを開発

　　2020年７月15日のHPC wireが，テネシー大学のJack Dongarra教授と同大学のリサーチディレクタのStanimire Tomov氏がExaスケールスパコン向けの高効率FFTを考案したと報じています。フーリエ変換は重要なアルゴリズムでFFTWやFFTEという効率の高いライブラリがつくられているのですが，これらのアルゴリズムはスケーラビリティーが悪くExaスケールスパコンでは大きくなったハードウェアの規模をうまく行かせません。

　　Dongarra教授とTomov氏はheFFTe(Highly Efficient FFTs for Exascaleというアルゴリズムを開発しました。

　　Summitの4ノードを使う10243点のFFTを行ったケースは，ローカルなFFT演算はメモリバウンドで約50%の時間が掛り，50%がMPIの通信時間となっていました。これをGPUを使ってローカルの計算時間を43倍高速にし，GPUDirectでGPU間の通信時間を短縮することにより，全体の処理時間を1/2に短縮したとのことです。

　　また，heFFTeは10243点のFFTの処理時間が，Summitの64ノードまでStrong Scaleし，64ノードまでWeak Scalingが出来ていて従来のFFTEより高いスケーラビリティーを示しています。

　　ということで，ノード数の多いExaスパコンでのFFTの処理時間を半減させられると期待されます。

３．TSMCが設備投資を$1B増額

　　2020年７月16日のEE Timesが，TSMCが，業績の見通しが改善したことから$1B設備投資を増額すると報じています。

　　TSMCの売り上げの15%を占めるHuaweiとその子会社への売り上げは，米国商務省の禁輸措置で，TSMCは既に新規の注文は受け付けておらず，これまでに注文を受け付けたオーダーは9月15日までに，納入を完了することになっています。

　　Mark Liu会長は，この禁輸に関しては楽観的で，時期は述べませんでしたが，禁輸は緩むと見ています。アリゾナ州へのFab建設の話もあり，TSMCは米国政府とも密に話をしており，TSMCは色々な情報を得ています。その人の見方ですから信頼性は高いと思われます。

　　2020年後半は，5GとHPCの分野で売り上げが増え，この傾向は数年続くと見ています。そのため，設備投資を$1B程度増額するとのことです。

４．Graphcoreが第2世代のIPUを発表

　　2020年７月15日のEE Timesが英国の英国のGraphcoreの第二世代のIPU（Intelligence Processing Unit)とそれを使ったサーバの発表を報じています。

　　Colossus Mark2 IPUは，TSMCの7nmプロセスで作られ1472コアを集積しています。そして，演算性能は250TFlopsの演算性能を持つとのことです。オンチップのIPUメモリは，300MBから900MBに増えています。全体としてみるとMark1と比較すると，おおよそ3-4倍の性能とのことです。

　　2個のIPU1を載せたPCIeカード8枚のマシンと比較すると，4個のIPU2のマシン8台のシステムはBERTの学習では9.3倍，BERT-3Layerの推論では8.5倍，そしてEfficientNet-B3の学習では7.4倍速いとのことです。

　　4個のIPU2を搭載したM2000サーバはFP16でPFlopの性能と書かれていて，前述の250TFlopsはFP16での性能のようです。

　　そして，NVIDIAのDGX-A100との比較が載っています。ということで，性能，メモリ量の両面でGraphcoreが圧倒的に優れているという表です。

	NVIDIA DGX-A100	Graphcore ８ｘM2000
FP32 Compute	156TFlops	2PFlops	>12x
AI Compute	2.5PFlops	8PFlops	>3x
AI Memory	320GB	3.6TB	>10x
System Price	$199,000	$259,600

　　ただし，DGX-A100は8チップ，M2000x8は32チップです。そしてDGX-A100のFP32の性能は1チップの値で，サーバ全体ではこの8倍が妥当ではないかと思います。それでも32チップのM2000x8の方がピーク性能は勝っています。

　　AIメモリは，DGX-A100の方はHBM2メモリだけを数えています。Graphcoreの方はM2000の最大450GBのExchange Memoryを数えているようです。このメモリは処理を始める前にIPUメモリにデータを移動するバッファ的な大容量メモリでCPUのメインメモリの一部を使っても良いと書かれており，320GBのHBM2と比較するのは無理があると思います。

　　しかし，Graphcoreはグラフ処理で，次の動かすブロックを見つけてDxchangeメモリへの転送を行うとのことで，このプリフェッチがうまく当たっていれば，この比較も悪くないかもしれません。

５．Graphcoreは成功できるか？

　　2020年7月15日のNext Platformに，Next PlatformのNocole Hemetoth記者がGraphcoreとマシンラーニングLSIの将来に関する記事を書いています。Nicoleとは顔見知りで，学会の会場で会えば挨拶する仲ですが，このコロナ禍ではディジタルカンファレンスで，そのような出会いはお預けです。

　　それはともかく，NextPlatformの記事は技術的には詳しく書かれているのですが，本当にグラフコアのような学習AIチップの市場があるのかという疑問を投げかけている点で他の記事とは違っています。

　　確かに学習LSIにGoogleなどの大手ハイパースケーラは自社開発を選び，Graphcoreのような製品を選ぶ顧客は減っています。NVIDIAは学習性能の向上も頑張っていますが，ドル箱のグラフィックスの機能の充実にも目を配って全方位作戦を取っています。

　　Glaphcoreの設計は素晴らしいと言われながら，なかなかユーザ数は増えないというのが現実です。

　　NicoleはAIスタートアップのパーティーは終ったと書いています。他社と同じようなものでは生き残っていけません。AIも最初のフィーバーを過ぎて生き残るためにはどうすれば良いのかを考える時代になったようです。