20190511

最近の話題 2019年5月11日

１．Intelが7nmまでのロードマップを発表

　　2019年5月8日のHPC Wireが，IntelのInvestor Meetingでのロードマップの発表を報じています。それによると，Intelの10nmプロセスの量産は，今年の初めから始まっており，2020年は10+プロセス，2021年からは7nmプロセスが使われることになっています。そして，2022年は7+，2023年は7++になるとのことです。なお，2021年は10++というプロセスも併用されるようです。

　　そして，2021年の7nmプロセスでは，スケーリングが2倍になり，性能も20%改善されるとのことです。7nmプロセスからEUVが量産に使われるようになり，プロセスルールの複雑度は1/4になるとのことです。また，実装テクノロジに関しては，第二世代のFoverosとEMIBが使われます。

　　これまでの開発のペースはひと刻みが5-7Quarterであったのですが，これを加速して4-5Quarterのペースで開発を行うとしています。ペースを上げて10nm世代での遅れを取り戻そうということでしょうが，一方，７，7+，7++のように中間改良を増やしているので，刻みの短縮ほどは開発速度は速くなっていない感じです。

　　アーキテクチャ的には，CPU，GPU，ニューラルネットアクセラレータ，FPGAを全てプロセサと位置づけ，XPUと呼びOpenAPIと呼ぶ，一つのAPIでソフトが作れるようにするというのが大きな改革です。

　　GPUはX^eというIntel開発の新アーキテクチャで，最初のX^e GPUは，エクサスケールスパコンのAuroraに使用される予定です。なお，このGPUは7nmプロセスを使用する最初の製品で，第二世代のFoverosとEMIBが使われるとのことです。また，X^e GPUは2020年のTiger Lakeに搭載される予定です。　

２．FrontierスパコンはAMD-Crayが受注

　　米国のAuroaに次ぐ2台目のエクサスケールスパコンは，AMD-Crayが受注と2019年5月7日のEE Timesが報じています。システムはCrayのShastaで，インタコネクトはSlingshotが使われます。そして，CPUとGPUはAMD製になるとのことです。

　　システムの形態としてはLBNLのPerlmutterスパコンと近いのですが，PerlmutterはGPUがNVIDIAのVolta Nextと言っているのが，FrontierではAMDのGPUになります。CPU，GPUの情報は無くプロセステクノロジも発表されていません。

　　Oak Ridge国立研究所への納入は2021年で，本格的に使えるのは2022年とのことですから，2020年納入のPerlmutterよりは1年かそれ以上遅いので，より進んだCPUやGPUが使われる可能性はあります。

　　CPUに4個のGPUが接続されている図が記事に載っており，CPUと4個のGPUを搭載したマルチチップになる可能性もあります。そうすると，CPUがI/Oチップと8個とか16個のCPUコアチップでできており，GPUが4個のチップで，それぞれに2個のHBM2/3が付くという20チップ以上がインテポーザに載るなんてこともあり得ないことではないかも知れません。

　　GPUはSlingshotスイッチに接続するポートを備えるとのことです。

　　システム規模は100キャビネット以上で，ピーク性能は1.5EFlops以上，消費電力は40MWとなっています。設置面積は7300sqftだそうです。

３．3世代目のThreadripperがAMDのロードマップから消えた

　　2019年5月8日のThe Inquirerが3世代目のThreadripperがAMDのプロセサロードマップから消えたと報じています。このThreadripperはハイエンドのPC用のプロセサで，7nmプロセスのZen2アーキテクチャのプロセサで，今年の中頃に出る筈でした。しかし，投資家向けの発表で示された最新のロードマップでは，これが無くなったとのことです。

　　なぜ，無くなったのかその理由は不明です。しかし，AMDのロードマップは，このところ混みあっていて，データセンタ向けのZen2アーキのRomeを出し，来年にはZen3アーキテクチャのMilanを出すというロードマップで，手が回らないのではないかと思います。

４．東芝が組み合わせ最適化の画期的アルゴリズムを開発

　　2019年4月20日に東芝は，組み合わせ問題の最適化の画期的なアルゴリズムを開発したと発表しました。離散値の組み合わせ問題はNPハードな問題で，選択肢が多くなると虱潰しに最適解を調べるのは非現実的です。

　　一つの方法は，Ising Modelを作り，系のエネルギーが最小になる解を求めるという方法で，D-Wave社は超電導の量子ビットを使って解を求めるマシンを販売しています。しかし，こちらは超低温で動作させる必要があります。

　　一方，富士通などは，シミュレ―テッドアニーリング（SA；Simulated Annealing)という方法を使う専用のLSIを使うマシンを作っています。Qbitを使うマシンの方が最適解を見つける能力が高い筈ですが，SAでもかなり良い解を見つけることができるようです。富士通などの方式は通常のCMOS回路で，常温で動かせるのでQbitのマシンより，ずっとお手軽です。

　　東芝の発表ですが，シミュレ―テッドバイファーケーション（SB；Simulated Bifurcation）という東芝が考案したアルゴリズムで最小エネルギーの状態を見つけるのだそうです。SAは並列処理ができないのですが，SBの方は並列処理ができ，従来方式の10倍～100倍以上高速で，最適解を得ることができるとのことです。

　　D-Waveのマシンは2000Qubit，富士通のチップは8192bitですが，東芝は，FPGAで2000bitの処理をデモし，８GPUのサーバでは100,000bitの問題を約1秒で解いたとのことで，専用ハードを作る必要はないとのことです。

　　適用範囲が同じかどうか分かりませんが，100Kbitの離散的な組み合わせ最適化問題が，専用ハードを使わなくても解けるようになったら，D-Waveは潰れてしまいますし，富士通のDigital Annealerも無駄になってしまいます。

５．MellanoxのSHARPで集合通信を高速化

　　2019年5月6日のHPC WireがMellanoxのSHARPの第二版のSHARPｖ２について報じています。InfiniBandは標準のネットワークでは最も高速ですが，全ノードの計算結果の合計を取るなどの集合通信を行う場合には時間が掛かります。

　　MellanoxのScalable Hierarchical Aggregation and Reduction Protocol（SHARP)は，ネットワークの中で合計や最大，最小値を取る処理を行うようにして，集合通信を高速にしています。ただし，このためにはMellanoxのSwitch-IB-2スイッチを使う必要があります。

　　この機能は2016年に発表されたのですが，このほど，その改良版のSHARPv2を発表しました。v2ではストリーミング転送や大きなベクタのリダクションができるようになりました。ただし，この為にはConnectX-6アダプタとQuantum 200Gb/s InfiniBandスイッチとNVIDIAのNCCLライブラリを使う必要があります。

　　これでDGX-2を使ったAIの分散学習の性能が2倍に向上したとのことです。