最近の話題 2016年12月10日

1.米国のExascaleプロジェクトは1年前倒し

  2016年12月8日のThe Next Platformが,米国のExascaleプロジェクトは1年前倒しして,2021年にNovel Architectureで実現と報じています。

  Exascale Computing ProjectのディレクタであるPaul Messina氏へのインタビューで,Messina氏が述べたとのことです。

  米国のExaの定義は,現在の20PFlopsのスパコンと比較して,実アプリの実行で50倍の性能を持つというもので,HPLで1ExaFlopsというものではありません。

  ECPでは,現在も2つの違ったシステムを開発する方針で,一つは2021年,もう一つは2022年になる可能性もあるとのことです。ただ,ECPは中身を細かく指示することはしないとのことで,Novel Architectureの詳細は明らかにされていません。

  ECPは,ここ数か月,各社と話を行って来ており,そこで,2021年に実現できそうという感触を得たとのことです


2.2017年~2020年に稼働するFabの40%以上が中国

  2016年12月15日のEE Timesが,SEMIの調査結果をひいて,2017年から2020年に稼働を開始する半導体Fabは,その40%以上が中国のものであると報じています。

  SEMIの調査では,この期間に稼働を開始するフロントエンドFabは,全世界で62で,その中の26は中国に建設されるもので,これは42%に当たります。北米は10,台湾が9,東南アジアが5,ヨーロッパ,日本,韓国が各4となっています。

  63fabの内,32%が受託生産のFoundryで,メモリが21%,LEDが11%,パワー半導体が10%,MEMSが8%となっています。

  当然ですが,半導体の製造設備の売り上げも中国が大きなマーケットで,2016年は全世界で$39.7Bの内の$6.7Bが中国となっています。


3.AMDがZenコアを使うRYZEN製品を発表

  2016年12月15日のEE Timesが,AMDのZenベースの製品の発表を報じています。ZenはBuudozerに始まる建設機械シリーズの次世代となる新アーキテクチャのコアで,Zenコアを使うSummit Ridgeはクロックが3.4GHz,8コアで合計16スレッドを実行できます。L2キャッシュは4MB,L3キャッシュは16MBです。

  Zenコアは,現在のコアに比べて40% IPCを向上したとのことで,IntelのXeonと戦えるレベルになっていると見られています。

  AMDのデモでは,Intelの3.7GHzクロックのi7-6900Kと同等か,それを超える性能で,消費電力は少ないとのことです。

  来年6月までに,Naplesと呼ぶサーバ用チップを出荷する計画です。

  また,RyzenやVege GPUは,Infinityという新しいファブリックを使うことが明らかにされました。AMDはInfinityの仕様を公表していませんが,ノートブックの場合は30-50GB/s,Vega GPUの場合は512GB/s以上のバンド幅だそうです。そして,CCIX準拠になるとのことです。Vegaのリンクはメッシュだそうです。

  そして,RyzenはSenseMIと呼ぶ,100個以上の温度センサを持ち,25MHz単位で増減して,最も性能が高い状態で動かせるとのことです。

  それから,プリフェッチに関してニューラルネットを内蔵して,学習しながらプリフェッチの判断を改良するとのことです。ただし,改良はModestと言っており,それほど大きくはないようです。

4.AMDがAI向けのRadeon Instinctを発表

  2016年12月13日のPCWatchが,AMDのRadeon Instinctと呼ぶRadeon GPUのAI関係の機能強化について報じています。他にも報道はありますが,後藤さんのこの記事が一番詳しいと思います。

  ディープラーニングではNVIDIAに出遅れていたAMDですが,GPUの方はFP16の半精度浮動小数点演算をサポートし,Radeon Open Compute Platform(ROCm)というソフトウェアを開発しました。

  GPUの方はMI6,MI8,MI25の3品種で,MI6はFP16で5.7TFlopsでRadeon RX 480のFP16サポート版と見られます。MI8はMI6と演算性能はあまり違わないのですが,MI6のメモリバンド幅が224GB/sに対して,MI8は512MB/sとなっています。つまり,Radeon R9 nanoベースのMI8はHBMを使っているようです。
MI25は新アーキのVegaベースで,その名前から25TFlops程度と見られます。25TFlopsとすると,21TFlopsのNVIDIAのP100を2割程度上回る性能です。MI25もHBMベースと見られます。MI6とMI8は推論用,MI25は学習用と銘打たれています。

  ROPmは,Caffeなどの主要なプラットフォーム,コンパイラやライブラリなどを含む開発環境です。一応,一通りのものは含まれている感じですが,まだ,先行するNVIDIAと比べると差があると思われます。多くのGPUプログラムがCUDAで書かれていることから,CUDAからOpenCLへのコンバータも提供しています。完全自動ではありませんが,手間は省けるかもしれません。

  Infinityリンクによる高速のGPU間の対等通信が目玉ですが,これが何時からサポートされるのかは,書かれていません。

5.Green500 1位のNVIDIAのSaturn Vの画像は本物か?

  2016年12月14日のマイナビが,NVIDIAのP100 GPUを使うスパコンがGreen500の1位と2位を占めたという記事を載せています。その中で,NVIDIAが公開したP100 GPUを使うSaturn Vスパコンの写真は,実はCGで描かれたもので本物ではないという可能性が指摘されています。

  これについて,考察してみました。

  公開されたSaturn Vスパコンのイメージが,CGで作られた偽物と考える理由は幾つかあります。公開イメージでは,DGX-1が10台搭載されたラックが12本見えます。両端は切れていて,更に,ラックが並んでいる可能性もあるという絵になっています。

  DGX-1を124台使っているので,これで良いように思われるかもしれませんが,DGX-1は空冷です。空冷の装置を搭載したラック列を置く場合は,吸気側同士を向き合わせたコールドアイルと,排気側同士を向き合わせたホットアイルを作るように並べるのが普通で,全部のDGX-1が一つのラック列に並んでいるのは写真写りは良いのですが,非常に不自然な配置です。

  そして,DGX-1は3Uのボックスで,それが10台なら30Uで済みますが,30Uは1333.5mmです。下の立ち上がりと,上の枠がありますが,それでも150cm程度の高さの非標準のラックということになりますが,このようなラックを作ることにどのような必然性があるのか分かりません。また,3UのDGX-1を詰めて搭載するにしては,このイメージは間が空きすぎています。1Uのめくら板を間に入れたにしては空きが小さく,不自然な絵です。

  さらに不思議なのは,DGX-1だけがラックに搭載されていて,InfiniBandのスイッチが見えないことです。124台ですから,ディレクタスイッチ1台で接続しているのかと思ったのですが,Mellanoxの36ポートEDRスイッチをL1とL2スイッチとして使っていると書かれています。この場合,各ラックにエッジスイッチが搭載されていない構成では,ケーブルが長くなり,高価な光ケーブルの使用が増えてしまいます。

  ディレクタスイッチ1台で処理する場合は,各ラックにエッジスイッチは入りませんが,ケーブルの長さを考えれば,124台のDGX-1の中央付近にスイッチを置くのが普通です。

  非標準のサイズのラックを作り,冷却効率を無視してホット,コールドアイルを作らず,InfiniBandスイッチは別ラックに搭載して長いケーブルを使えば,このイメージのようなシステムを作ることは可能ですが,必然性がありません。ということで,私は,NVIDIAの発表したSaturn VのイメージはCGで作った偽物であると思います。



inserted by FC2 system