最近の話題 2016年6月4日

1.中国のSunwayスパコンはピーク125PFlops


  2016年6月3日の松岡先生のブログが,ACM HPDCでのJack Dongarra先生の講演を引いて,中国のSunwayスパコンは,ピーク性能125PFlopsで,LINPACK効率は80%と書いています。とすると,LINPACKで100PFlopsという計算となります。これは現在の天河2号の3倍のスコアです。

  なお,このマシンは6月19日からドイツのフランクフルトで開催されるISC 2016で発表セッションがあり,Top500にも載ると見られます。

2.TACCのStampede 2は18PFlops

  2016年6月2日のHPC Wireが,テキサス大のスパコンセンタ(TACC)のStampedeを更新するStampede 2について報じています。現在のStampedeは2013年に稼働し,その当時はピーク性能が2PFlopsだったのですが,その後KNCを増設して,現在では9.5PFlopsになっています。

  Stampede 2ではKNLを搭載したDellのPowerEdgeサーバを使い,ピーク性能を2倍の18PFlopsに引き上げるとのことです。予算的には$30Mで,これはStampedeから変わらないとのことです。

  新システムは床面積的には若干小さくなるとのことで,今回はセンタの施設を新たに建設せずに導入できるそうです。今のセンタは床面積的に多少余裕があるので,そこで,部分的に組み立てて現システムと次々と交換していくという手法でサービスを止めずに順次アップグレードするとのことです。

  KNLの導入は6月のISC直後に500ノードを入れ,2017年前半にかなりのノード,2017年度後半に残りのノードを入れる感じだそうです。

  また,一部のノードは3D Xpointメモリを搭載し,3D Xpointメモリを含むメモリ階層がどのように使えるのか,を検討するとのことです。3D Xpointの設置は2018年にずれ込みそうとのことです。

3.ARMが新CPUCortex A-73を発表

  2016年5月31日のPC Watchが,ARMが10nm世代の新CPU Cortex A-73(開発コードネームArtemis)の発表を報じています。後藤さんの記事です。他にも多くの報道があるのですが,これが一番詳しいと思います。

  Cortex A-73は10nmプロセスを使い,電力効率を重視した設計で,16nmのA-72と比較すると,同じ750mWの電力枠では30%高い性能を実現しています。A-72は3命令発行だったのですが,A-73では2命令発行に縮小しています。しかし,分岐予測,キャッシュ,TLBなどを細かく改良して,A-72と同じアーキテクチャ効率となっているとのことです。

  そして,10nmプロセスの採用と相まって,コアサイズは0.65mm2と非常に小さくなっています。これは16nmのA-72と比べると46%減の面積になっています。

  2016年6月1日のThe Registerが後藤さんの記事と同程度の詳しい記事を載せています。それからThe Registerによると,A72はテキサスのチームが設計したのですが,A73はフランスのチームが省電力を最重要の目標として新設計したとのことです。

4.ARMが新GPUアーキテクチャBifrostを発表

  2016年5月31日のPC Watchが,ARM新GPUアーキテクチャBifrostの発表を報じています。前の話題と同じ後藤さんの記事です。

  Bifrost GPUは,Utgard(上つ国),Midgard(中つ国)に続くGPUアーキテクチャです。BifrostはMidgardとAsgard(神々の国)の間に掛かる燃える虹の橋だそうです。

  最大の変更は,ついにARMのMali GPUもSIMT実行モデルになったことです。しかし,NVIDIAの32スレッド1ワープのように幅が広い演算ユニットではなく,Clauseと呼ぶ4スレッドのグループ単位で実行するというものです。このアーキテクチャ変更で,性能は1.5倍に上がったとのことです。タイリングを使っているという点は,以前の世代から変わっていません。

  そして,Mali-G71では,シェーダコアの数を前世代のMali-T880から倍増の32コアに引き上げています。Bifrost Core Designというスライドには,各コアにはExecution Engineと書かれたブロックが3個あり,それぞれにQuad Stateと書かれているので,12個の演算器(FMA+ADD)があると思われます。とすると32コア×12演算器で384演算器(CUDAコア相当)となります。コアごとにLoad/Storeユニット,Textureユニット,Depth/Stencilユニットなどを持っています。

  演算器は32bit幅ですが,整数では8/16ビット幅に分割してSIMDで演算数を増やすことができます。また,浮動小数点ではFP16で2演算を並列に実行することができます。面白いのは,前の演算結果はつぎの命令だけが使うケースが多いので,レジスタファイルに入れずにテンポラリレジスタに入れで次の命令に受け渡すという機能がある点です。これはエネルギー効率は良いのですが,プリエンプションをすると,テンポラリレジスタの退避,復元がひつようになります。細かい単位でのプリエンプションはサポートしないのでしょうか。

  Mali-G71 GPUは,VR表示に適した120Hzのリフレッシュレート,4K解像度,4msのグラフィックパイプラインのレーテンシ,4倍のマルチサンプルによるアンチエ―リアスができると書かれています。

  なお,APIとしてはVulcanをサポートしています。

5.Caviumが第2世代のThunder X2プロセサを発表

  2016年5月30日のEE Timesが,Caviumの第2世代のARMサーバチップの発表を報じています。Thunder X2と呼ぶ,このチップは2.6GHzクロックで動くコアを54個集積し,最大32MBのLLC,6チャネルのDDR4などを搭載しています。

  性能的にはBroadwellE5-v4を1.0とするとSkylakeE5-v5が1.2倍の性能で,Thander X2のアプリ性能はこれと同じ1.2で,仮想化やネットワーキングやセキュリティーは2.0の性能と言うグラフになっていますが,かなり大雑把なグラフでよくわかりません。

  Thnder X2の登場時期は来年の遅い時期とのことで,Intelが性能/電力を改善したチップをその前に出してくる可能性があります。

  初代のThunder Xは1四半期で数1000個の販売とのことで,殆ど売れていません。ARMに最適化したアプリが少ないことが障害で,様子見の潜在ユーザが多く,本格的な採用が始まっていないことが問題とのことです。しかし,Linley GroupのAPMの第3世代のX-Gene 3のWhite Paperを見ると,性能/電力的にもIntelの改善が著しく,ARMサーバチップは追いついていません。

  また,全体の性能が同じなら,各コアの性能が高く,少ないコア数のチップの方が使い易いということもあり,中々,ARMサーバチップの採用は難しい面があります。

6.MellanoxがメニーコアのネットワークSoC  BlueFieldを開発

  2016年6月1日のThe Registerが,高性能ネットワーク機器の大手のMellanoxのメニーコアプロセサを集積するネットワーク用SoCの開発を報じています。ネットワークの機能の仮想化や,パケットの中身の検査,高度なプロトコルのサポートなどネットワークのスイッチに要求される処理性能は上がって来ています。

  ということで,ネットワーク機器の各社はメニーコアのプロセサを使っていますが,今回のBlueFieldは,メニーコアエンジンとしてTilera社のメッシュネットワークのメニーコアを使っています。これはTileraがEzChipに買収され,今年2月にMellanoxがEzChipを買収したことにより,Tileraの技術がMellanoxに伝わったからです。

 EzChipは100コアのTileraプロセサを発表していましたが,BlueFieldに内蔵されるコアの規模は不明です。そして,BlueFieldSoCのサンプルができるのは2017のQ1とのことです。


inserted by FC2 system