20190622

最近の話題 2019年6月22日

１．Top500にさよならをした理研R-CCSの富岳スパコン

　　2019年6月16日からフランクフルトで開催されているISC19のPost-Kの状況というセッションで，理研R-CCSの佐藤先生が富岳スパコンの諸元を発表しました。

　　それによると，ノード数は150K以上で，倍精度の浮動小数点演算のピーク性能は400PFlopsを超えるとのことです。この演算性能は京コンピュータの34倍です。メモリと演算性能のバランスという点では，京が0.5Byte/Flopであったのが，富岳では0.4と，若干低下したものの，ほぼ同じレベルを保っています。

　　コンピュータが計算を行うには，演算器が使える必要がありますが，もう一つ重要なのは，メモリから演算器にデータが供給され，演算結果がメモリに書き戻されることが必要という条件です。

　　スパコンのランキングを行うTop500で使われるHPLベンチマークでは，メモリをあまり使わないので，演算器がどれだけあるかで性能が決まりますが，最近の科学技術計算では，メモリのアクセスが多く，演算器は遊んでいる場合が多いのです。

　　このため，富岳では演算器を増やすことにお金をつぎ込むのではなく，メモリにお金をかけて高バンド幅のHBM2をメインメモリとして使っています。その結果，京コンピュータと同程度のメモリと演算性能のバランスを保っています。

　　その意味では，富岳はTop500には「さよなら」をしたスパコンと言えます。（多分，Top500に性能を登録することは行うので，完全にさよならではないでしょうが，ここではTop500のランキングを上げることに最大の努力を払うわけではないという点で，さよならと言っています。）

　　このような設計の結果，ターゲットの9種のアプリケーションの実行性能は，京の8倍～125倍，全体の幾何平均では37倍となっています。目標の100倍を超えたアプリは２つで，幾何平均でも目標を下回っていますが，ハードウェアは，演算は34倍で，メモリと演算のバランスはちょっと悪めですから，幾何平均37倍は，チューニングによる性能向上がある程度入った妥当なレベルとも言えます。しかし，100倍を超えたアプリケーションが2つで，富岳は京の100倍の性能は言い過ぎではないかと思います。

　　中国や米国がどのようなバランスのマシンを作り，実アプリケーションでどのような性能を出してくるのかが見ものです。

２．スパコン専用マシンは不要か

　　2019年6月20日のThe Registerが，今回のISCで発表された第31回のTop500で，Descartes LabsがAmazonのAWSで作ったスパコンが1.9264PFlopsを出し，136位にランクされており，スパコン専用マシンは必要なのかと書いています。

　　このマシンは，41,472コアと157,824GBのメモリを持ち，通信を高速化するため，Placement Groupを指定しているとのことです。

　　このマシンでHPL性能を測定するのにかかった費用は$5000だそうで，専用マシンを設置するのと比べて大幅に安上がりというわけです。ただし，HPL性能の測定はスパコンを使う目的ではなく，このAWSのスパコンで各種の実アプリケーションを実行した場合の費用は，多分，専用スパコンの方が安上がりです。

　　しかし，スパコンを時々必要とするという使い方では，必要な時にAWSを使う方が安上がりでしょう。いまやクラウドでもこんなことが出来るということは覚えていて損はないと思います。

　　なお，Top500でリストに載るにはそのスパコンが使える状態で存在することが条件で，測定時に急ごしらえで組み上げて，HPL性能を測定したら解体してしまったスパコンは対象になりません。この点で，今回のシステムはどういうことになっているのでしょうかね。

３．Student Cluster Competition

　　ISC19で開催されたStudent Cluster Competition，南アフリカのCenter for High Performance Computingが総合優勝を果たしました。CHPCは過去にも優勝経験がある古豪のチームです。そして，総合2位は中国の清華大学，3位はスイスのETH Zurichです。

　　そして，最高LINPACK賞は総合3位のスイスのETH Zurichです。

　　今回も日本からの出場はありませんでした。

４．Habana Labが学習用チップを発表

　　2019年6月17日のEE Timesが，Habana Labが昨年の推論用チップの発表に続いて学習用のチップを発表したと報じています。同社のGoya推論チップは2018年9月にResNer-50での認識で記録を作っています。

　　今回発表のGaudiチップはResNet-50の学習で，バッチサイズ50で1650イメージ/秒の処理ができると書かれています。この時の消費電力は140Wで，同社によると，競合他社よりかなり低い消費電力とのことです。

　　Gaudiですが，それぞれがローカルメモリを持っ8個のTensor Processingコアがあり，それにGEMMエンジン，シェアードメモリDMAなどがついています。そして，メモリとしてHBM2が4個ついています。TPCは第二世代となっており，制御用のVLIWコアはゼロから作り直したとのことです。

　　そして，100GbitのEthernetが10本出ており，RoCEで他のGaudiと繋いでより大きなエンジンが作れるようになっています。