最近の話題 2017年12月2日

1.NTTが常温で動作する2000Qubitの量子コンピュータを発表

  2017年11月20日の マイナビが,NTTの2000Qubitの量子コンピュータの発表を報じています。NIIの山本教授をプロジェクトリーダとするImPACTの研究開発プログラムの一環として開発したものだそうです。

  長い光ファイバの中に2000個の光子を循環させ,それぞれの光子を量子ビットとして動作させるというタイプの量子コンピュータで,NTTはWeb上で公開して使えるようにするとしています。

  量子コンピュータは,ゲート型の50QubitのIBMのもの,量子アニールを使う2000QubitのD-waveのものがありますが,今回のものは,これらとは違い,量子相転移を使うのだそうです。そのため,IBMやD-waveのように極超低温にしなくても,常温で動作するとのことです。

  光ファイバのリングの中に位相感応増幅器を入れ,増幅器のOn/OffでQubitを書き込むようです。そして,Qubit間の結合はFPGAで制御するとのことです。

  この状態で光子の量子ビットが巡回するうちにスピンの向きが最も安定になる状態に落ち着くのだそうです。

  ベンチマークとして2000ノードの完全グラフのMaxcutを求める問題で,基準解より良い解を90%以上の確率で24時間連続して出力することができたと発表しています。

  光ファイバの中を回っている光量子ビットの状態を検出して,他の光量子ビットの状態を変えるなどということができるのですね。でも,FPGAは何をやっているのでしょうか?

2.Esperantoが4KコアのRISC-Vチップを開発

  2017年11月29日の PCWatchが,Esperanto Technologiesというスタートアップの会社が4KコアのRISC-Vチップを開発中と報じています。このEsperantoという会社を興したのはDave Ditzel氏です。彼は,Bell LabでBELLMAC-32というRISCチップを開発し,その後,SunでSPARCを開発し,更に,Transmetaを興して,DVFSを使って消費電力を減らし,x86命令をエミュレーション実行するプロセサを作りました。たしかシャープがTransmetaのCruesoeチップを使ったPCを出していましたが,商業的にはあまり成功せず,Transmetaはつぶれてしまいました。

  彼は,根っからのプロセサガイで,今回はEsperantoという会社を作って,RISC-Vアーキのプロセサを作っているという訳です。Esperantoには,ソニーのPS3のCellプロセサを作った笠原さんも参加しておられます。

  PCWatchの後藤さんの記事によると,EsperantoはMaxionと呼ぶOut-of-Order実行のハイエンドコアとMinionと呼ぶ電力効率の高いインオーダコアを開発しています。MaxionはARMの最上位のコアより性能が高いとのことです。MinionコアはRISC-Vにベクタ命令を追加し,ベクタ演算ユニットを搭載します。また,Tensor演算やグラフィックス向けの命令も拡張するとのことです。

  そして,7nmプロセスを使い,4096個のMinionコアと16個のMaxionコアをワンチップに集積するとのことです。ただ,集積度の点で,64bitの浮動小数点のベクタ演算ユニットが4096個のコア全部につくとは考えにくいところがあります。

  Esperantoは11月28日から30日まで開催されるRISC-Vワークショップで,このチップの開発計画を発表し,同時にベクタ拡張命令についても提案するとのことです。なお,RISC-Vファウンデーションは,12月18日に東大でRISC-V Day 2017 Tokyoを開催します。Esperantoからは笠原氏が登壇します。参加費は,事前登録の場合は4800円です。興味のある方は,こちらをクリックください。

  それから,ストレージ大手のWestern Digitalが,Esperantoに出資しているそうです。また,Western Digital社内で使うコントローラを全てRISC-Vに替えるという話もあり,Western DigitalのHDDやSSDに少なくとも1個は載るとすれば,1社だけでも相当の量です。このライセンス料をARMに払わないで済めば,かなりのコストダウンです。そして,RISC-V関係の開発はコミュニティーに公開する方針とのことなので,いろいろなIPやツールなどが提供され,RISC-Vの環境が早期に充実することも期待されます。

3.Green500の1~3位を独占したZettaScaler-2.2スパコン

  2017年11月29日の マイナビニュースが,Green500の1~3位を独占したPEZYグループのZettaScaler-2.2スパコンについての記事を載せています。

  それによると,ZettaScaler-2.2は,PEZYのPEZY-SC2というMIMD型の2048コアのプロセサをアクセラレータとして使っています。ただし,2048コアの内の1984コアだけを使用し,残りの64コアは歩留まり向上のための冗長コアにしています。コアのクロック周波数は700MHzで,2演算/サイクルです。

  Green500で1位になった菖蒲System Bは400個のPEZY-SC2を使うシステムで,この部分のピーク演算性能は1.111PFlopsと計算されます。これにXeon D CPUがついて,ピーク演算性能は1.12768PFlopsとなっています。そして,841.69TFlopsのHPL性能を出しており,17.009GFlops/Wの効率となっています。また,HPL/Peakは74.64%とかなり高い比率です。

  エネルギー効率の改善に一番効いているのは,28nmプロセスで作られたPEZY-SCから,今回は16nmプロセスで作られたPEZY-SC2に変わったことが効いています。正確には前回のGreen500リストにPEZY-SC2を使った暁光は7位で入っているのですが,調整を行う時間がなかったことから,効率は10.226GFlops/Wでした。

  今回は,最適な動作点を探し,ブリックの中のPEZY-SC2の特性を揃えるなどの努力や,HPLの大部分の処理をCPUからPEZY-SC2にオフロードするなどの改良を行っています。

  また,ZettaScaler-2.2では,電源供給系が改善され,3相の200V ACから48V DCを作る電源ボードをブリックの下に置き,そこにブレードのようなボードを上から差し込む構造を取っています。ZettaScaler-1.xでは,各ブレードボードに上側からACを供給していたのですが,今回は電源コードが無くなり,大分,すっきりしました。

  そして,48Vで給電するので12Vに比べると電流が1/4になりI2Rロスは1/16に減っています。さらに,48VをVICORのMCMというモジュールで0.7V程度のPEZY-SC2の電源電圧に変換しています。記事に写真が載っていますが,NVIDIAのV100と比べると,電源からチップまでの配線が大幅に短く,I2Rロスが減ります。PEZY-SC2の電源電流は200Aオーダですから,バカになりません。また,L成分も減るので,電源電流の変化に伴う電源ドループが抑えられます。その分,電源電圧を下げられますから,これも消費電力削減に貢献します。

  来年は,アクセラレータとしてV100を3個搭載するZettaScaler-2.4システムと,CPUをPCIeポート数が多いSkylakeに替えて,PEZY-SC2をCPUに直結して,PCIeスイッチを省いて消費電力を減らしたZettaScaler-2.6を開発するとのことです。ZS-2.6ではPCIeスイッチを省いたことでバンド幅の制約も解決されるとのことです。

4.ARMベースのHPCは立ち上がるか

  SC17では,CrayがXC50スパコンを展示しました。XC50は1キャビネットで1PFlopsの性能を持ち,最大構成では500PFlopsになるというCrayの最新型のスパコンです。発表時には,CPUをSkylakeに変更し,NVIDIAのTesla P100やIntelのXeon Phiをサポートするとのことで,ARMの話はありませんでしたが,SC17でCaviumのThunderX2プロセサをサポートすると発表されました。

  ThunderX2のどこが良いの?と展示員に質問したら,Xeonはメモリチャネルが3チャネルだがThunderX2は4チャネルでメモリバンド幅を必要とするユーザに売り込むと言ってました。Xeonも,例えばGold 6152では最大メモリチャネルは6チャネルとなっているのですが,Crayの製品ではThunderX2の方がメモリバンド幅が高いのでしょう。この記述は間違いで,ThunderX2は8本のメモリチャネルを持つのに対して,Xeon Goldは6チャネルなので,展示員の人が言った4:3の比率は正しいことになります。

  また,HPEは以前にThe MachineのプロトタイプでThunderX2を使いましたが,今回,HPEのHPC製品ラインであるApollo 70にThunderX2搭載のボードを発表しました。

  MicrosoftはAzureクラウドにQualcommのCentriq 2400を使うという話が流れていますし,データセンタでのARMアーキテクチャの使用が立ち上がりそうな気配です。

  スマホなどでは圧倒的なシェアのARMですが,データセンタでは新参ですから,使いこなしの腕力のあるHPC分野から突破口を開こうという作戦と思われます。また,これも腕力のあるAzureデータセンタなどもねらい目です。

5.SC17 Gordon Bell賞とStudent Cluster Competition

  SC17のGordon Bell賞の候補論文は3件で,2つが中国の神威 太湖の光スパコンでのもので,1件は気候,もう1件は地震のシミュレーションで,どちらもHaoHuan Fu先生のグループの発表でした。残る1件はCTデータから超並列で3Dイメージ作るというPurdue大の発表でしたが,これも発表者は中国人で,中国オンパレードでした。

  3件の候補論文の中でGordon Bell賞を受賞したのは,Fu先生自身が発表を行った"15-Pflops Nonlinear Earthquake Simulation on Sunway TaihuLight: Enabling Depiction of Realistic 10 Hz Scenarios”という地震シミュレーションの論文です。

  Student Cluster Competitionは,今年は16チームが出場しました。これは,例年の1.5倍程度のチーム数です。最初にHPLとHPCGの実行を行い,その後,45時間30分でBorn,LAMMPS,MrBayesの3つの課題アプリと,開始時に発表されたミステリアプリのM-Pas Atomosphereという4つのアプリケーションを実行しました。

  結果として,HPLを実行する最高LINPACK賞は,51.77TFlopsを出したNanyang Technological University(南洋理工大学)が受賞しました。前回の記録の37.05TFlopsの約1.4倍の性能です。また,2位の台湾の国立清華大学の41.55TFlopsを20%以上上回っています。NanyangはHPCGでも2.056TFlopsを出し2位の1.537TFlopsに大差をつけています。

  そして4種のアプリの実行,試験官のインタビューによるクラスタやアプリに関する理解などのスコアを含めた全体スコアで優勝したのはNanyangで,Nanyangは完勝です。

  なお,シンガポールのNanyangは,大学の評価でもアジアでトップクラスです。


inserted by FC2 system