20150711

最近の話題 2015年7月11日

１．AMDがサーバ用GPU FirePro S9170を発表

　　2015年7月8日にAMDは，昨年11月のGreen500で1位となったL-CSCが使用したS9150の上位となるS9170 GPUを発表しました。ピーク演算性能の向上は，2.51TFlopsから2.62TFlopsと僅かですが，GDDR5メモリが16GBから32GBへと倍増しています。メモリの倍増でより大きなデータを扱うことができるようになり，CPU側のメインメモリとのデータ転送が減らせるので，性能やGFlos/Wを改善することが出来ます。

　　次回のGreen500は，来週，フランクフルトで開催されるISC15に合わせて発表されますが，S9170を使う，よりGFlops/Wの高いシステムが出てくるか，前回2位に甘んじたExaScaler/PEZYが，ExaScaler-1.4でどの程度の値を出してくるのか，興味深いところです。

２．NVIDIAがDeep Learning関連の3つの製品を発表

　　2015年7月7日のHPCWireが，NVIDIAのDeep Learning関係の性能を改善する３つの製品の発表を報じています。

　　その第1はDIGITS 2です。NVIDIAは3月にDeep Learning開発用のDIGITSという製品を発表しています。この製品は，4個のGPUを搭載するコンピュータにDeep Learning用のプラットフォームを組み込んだもので，買ってすぐにDeep Learningが始められるというのが売りです。しかし，4個のGPUを搭載しているのですが，一つの学習を4つのGPUで分担して行うことは出来ませんでした。

　　学習は，以前の結果に新しい学習を付け加えながら，パラメタを最適化していく必要があり，単純に学習入力を４つのGPUで分担処理させるわけにはいきません。並列化できる部分もあるのですが，それまでの学習結果を他のGPUにも教えてやるために通信が必要になります。

　　DIGITS 2では，この通信を組み込み，学習を4GPUに分担させることができるようになりました。発表にグラフが載っていますが，2GPU並列では1GPUの1.8倍の性能，4GPUでは2.35倍程度となっています。4GPUの場合の性能の伸びが物足りませんが，学習時間が半分以下になるのは大助かりです。また，通信の速度がネックなので，Pascal　GPUになってNVLINKがサポートされれば，もっと，性能が上がるとのことです。

　　その第2は，cuDNN 3で，2次元の畳み込みやFFTを計算する関数がサポートされ，加えて，Maxwell GPUでサポートされた16ビット浮動小数点演算(FP16)を使うことにより，Maxwell GPUで実行すると，前の世代と比べて2倍速くなったとのことです。Deep Learningの計算は，16ビット浮動小数点数で行ってもその誤差はあまり問題にならず，1クロックに2倍計算ができ，同じメモリに2倍データが格納できるなどの点でメリットが大きいとのことです。

　　その第3は，CUDA 7.5で，FP16をサポートするようになりました。現在，FP16をサポートするGPUはMaxwellだけですが，次世代のPascalはFP16をサポートし，NVLINKでGPU間の通信を改善することにより，より高い性能を実現できると，Ian Buck氏は述べています。

３．IBMが7nmテストチップを公開

　　2015年7月9日のEE Timesが，IBMの7nmのテストチップの発表を報じています。指の上にチップを載せた写真が載っていますが，単純にトランジスタをつくったというレベルではなく，SRAMなどを含んだ，プロセサの各種部品の動作を確認できるテストチップということです。

　　IBMは半導体ファブをGlobal Foundriesに売却したのですが，先端半導体プロセスはAlbany NanoTech Complexにおいて，State University of New York(SUNY)，Global Foundries，Samsungなどと協力して開発を継続しています。

　　この7nmチップは，EUV露光，Si-Geチャネルなどの新しい技術や材料を使って実現されたとのことです。

　　テストチップから量産までは距離がありますが，技術的にはPOWER9プロセサの実現に向けての大きな一歩で，技術的に，Intelに差を付けた感じです。

４．フランスのCAEがExaFlopsマシンの開発をAtosと契約

　　2015年7月9日のHPCWireが，フランスの原子力政策を担うCEAが，2020年にExaFlopsスパコンを開発するプロジェクトをAtosと契約したと報じています。2015年の第1フェーズでは，Tera100と同等の性能を1/5の電力で実現するということで，最初のコンポーネントは，既に4月に納入されたとのことです。

　　第2フェーズは2017年までに，25PFlopsの性能を持ち，Tera100の20倍の電力効率を実現しするという目標です。そして，これらの成果に基づき，BullがExaFlopsのTera1000を2020年までに完成するという計画になっています。

　　なお，Tera100は，Top500リストでは，LINPACK性能が1.05PFlopsで，47位，消費電力が4.59MWとなっています。

５．Open Compute Projectの認定はいい加減？

　　2015年7月7日のThe Registerが，OCP の認定試験は全くのジョークと題する記事を載せています。OCPの認定試験は，University Texas San Antonio（UTSA)と台湾のIndustrial Technology Research Institute (ITRI) が行っていますが，UTSAは歴史が浅く，工学部のTop100ランキングにも入っておらず，その認定試験の実施能力に疑問があるとのことです。また，認定結果を載せたUTSAのページはPage Not Foundになっているなど，信頼性に欠けます。更に，UTSAの認定業務の主要関係者であるPaul Rad氏は，OCPメンバーのRackSpace社のVPを務めているなど，体制も不透明とのことです。

　　加えて，ITRI側のOCP認定のDeputy DirectorのYF Juan氏は最近辞任しており，WebページもNot Foundになっているなど，ITRI側の活動も不活発のようです。

　　OCPの認定に関わっていたエンジニアは，OCPの認定試験はデータインテグリティーや信頼性に配慮しておらず，ビジネス向けのサーバとしては，全くいい加減と述べています。ただし，Googleなどは，ハードウェアの故障はソフトウェアでカバーするという思想でデータセンタを作っており，個々のサーバの信頼性はそれほど重視していません。この点ではOCPの考え方も同じなのですが，FidelityやGoldman Sachsなどの金融機関がOCPサーバに切り替えると言っているのは問題が発生する可能性があります。