20160507

最近の話題 2016年5月7日

１．中国は2020年に1ExaFlopsのスパコンを建造

　　2016年5月2日のHPC Wireが武漢で行われた第12回HPC Connections Workshopでの北京航空航天大学のDepei Qian教授の発表を報じています。

　　それによると，中国はピーク1EFlopsのスパコンを2020年に作るという計画が承認され，開発が始まったとのことです。複数の用途に最適化されたアーキテクチャを開発し,50-100TFlopsの性能を持ち30+GFlops/wの電力効率のノードを開発するとしています。計算チップの性能は20TFlops，40GFlops+/Wで，複数のプログラミングモデルをサポートすると書かれています。このあたりはHPC Wireの記事の文章とスライドに食い違いがありますが，10,000ノード以上と言う記述とも整合しますし，スライドの方が信用できると思います。この時期に20MWでこのシステムを実現するのは難しいとして，消費電力は35MWを目標としています。

　　ピーク性能は1ExaFlopsですが，LINPACK効率は60%と言っているので，この通りならLINPACKは600PFlopsという計算になります。

　　ノード間のインタコネクトは500Gbps以上を目指し，メインメモリは10PB，ストレージはExabyteです。そして，中国が遅れているアプリケーションソフトウエアについても開発計画が作られています。

　　2016年4月26日のマイナビがExaFlops一番乗りを目指すというPEZYの齊藤社長のインタビュー記事を掲載していますが，齊藤社長の構想の方が，中国の計画に先行しています。ただし，予算の裏付けという点では中国の方に分がありそうです。

　　なお，これが実現できれば，中国は米国のテクノロジに頼らず，スパコンの一等国となります。

２．中国は2つの100PFlopsシステムを今年発表か？

　　前の話題と同じ2016年5月2日のHPC Wireが報じる武漢で行われた第12回HPC Connections Workshopでの北京航空航天大学のDepei Qian教授の発表で，中国の100PFlopsマシンの開発状況が明らかにされました。

　　それによると，中国は天河2号をピーク100PFlopsにアップグレードするという計画と，上海近郊の無錫市に設置されるSunway（神威）システムも100PFlopsを目標としているとのことです。公式にはこれらのシステムの完成は2016年となっていますが，6月にフランクフルトで開催されるISC16ではSanwayシステムの発表がプログラムに掲載されており，6月のTop500に登場する可能性もあります。

　　
　　天河2号に関して，Qian教授は新しい飛騰プロセサの完成を待っていると述べています。これまでの飛騰プロセサはOpenSPARCアーキテクチャの汎用プロセサです。これまでの情報では天河2号はKNLが使えないので独自のDSPを開発すると言われていたのですが，もしかすると，天河2号のアップグレードは，中国DSPでXeon Phiを置き換えるだけではなく，CPU側も飛騰プロセサに置き換えIntel依存を一掃するのかも知れません。

３．Top500とGreen500が統合

　　2016年5月6日のHPCWireが，スパコンランキングのTop500とGreen500が統合すると報じています。Top500はスパコンのLINPACK性能のランキングですが，消費電力はランキングの基準に入っていません。Green500は，エネルギー効率が重要という観点から，Top500に入るシステムのGflops/Wでのランキングを行っています。

　　Top500とGreen500というランキングは変わらないのですが，システムの測定結果のサブミッションを一本化し，Top500を運営しているISCグループが担当することになるとのことです。共通の電力測定ルールとしてはEEHPCWGのVersion 2.0 RC 1.0のページがリンクされています。

　　ただし，これまでTop500では電力は増えても性能を最大にする条件で測定し，Green500では性能は下がってもGFlops/Wを最大にする条件で測定するのが一般的でしたが，このような測定が許容されるのか，一つの測定結果が両方に使われるのかは明らかではありません。

４．PEZYがLINPACK性能を15.7%改善

　　2016年5月6日にPEZYは，64ノード，256チップのシステムのLINPACK性能を225.4TFlopsから260.8FFlopsと15.7%改善したと発表しました。この改善はチップの改善ではなく，パッケージの改善とLINPACKのピークFlops比改善で達成されたとのことです。

　　PEZY-SCチップは，DDR3/4を8チャネルとPCIe3.0を32レーン持ち，チップのI/Oピン数が多くなっています。この多ピンのチップを47.5mm角のパッケージに押し込んだために，電源ピンが少なく，信号の引き回しも厳ししいので，ノイズが大きくなってしまい，ZS-1.4とZS-1.5ではPEZY-SCのクロックやDRAMのクロックを落とす必要があったとのことです。また，電源ノイズが大きくノイズによる電源電圧の低下分を補うため供給する電源電圧を高めにしておく必要があり，消費電力の増加にもつながっていました。

　　これに対して，PEZY-SCのパッケージを一回り大きくして50mm角として，電源，グランドピンを増やし，パッケージ基板とモジュール基板を一体とした詳細なCAD解析を行ってノイズを低減するようパッケージの設計をやり直しました。

　　このノイズを低減した新パッケージのPEZY-SCnpでは電源電圧を1.0Vから0.95Vと5%低減して，動作クロックを733MHzから766MHzに向上しています。

　　このPEZY-SCnpチップは既存の4台のスパコンのアップグレートと開発中のスパコンに使用されるとのことです。

５．ITRSロードマップが衣替え

　　2016年5月4日のEE Timesが，半導体技術のロードマップであるITRS（International Technology Roadmap for Semiconductors)が，IRDS（International Roadmap for Devices and Systems）に替わると報じています。ITRSは米国のSIA(Semiconductor Industry Association）と欧州，日本，韓国，台湾のSIA相当の団体が作っていたのですが，新しいIRDSは，カバーする範囲が広がっていることもあり，IEEEが作成を担当するとのことです。

　　ITRSは1965年のスタートから，半導体技術の進歩のペースメーカーの役割を果たしてきましたが，微細化の進歩のスローダウンから，XXnmノードというものの意味もあいまいになるなどで，ITRSの有効性にも陰りが出てきていました。

　　そして，技術の進歩は，半導体だけでなく，実装技術，そしてシステムのアーキテクチャなどを合わせて考えることが必要になって来ていることから，範囲をDevices and Systemsに拡張し，SIAのカバー範囲を超えることから，IEEEのStandard AssociationがIEEEのComputing Scietyの助けを借りてまとめることになったものです。

　　IRDSの検討メンバーは5月12，13日にベルギーのルーベンに集まり検討を開始する予定です。

６．ロシアのMIPTがアナログの脳を開発中

　　2016年5月4日のEE Timesが，ロシアのMoscow Institute of Physics and Technologyが，Memristorを使うアナログの電子脳を開発中と報じています。

　　HPはMemristorをアナログに使おうと考えていたのですがうまく行かず，現在のところは2値のメモリとして使う方に転向していますが，Memristorは流す電流量の総計に比例して導電率が増える（抵抗が下がる）という特性をもっており，刺激のスパイク入力が大きくなると，抵抗が減って，閾値以下になるとスパイクを出力するというニューロンの特性を良く表すことができます。

　　MIPTの研究者によると，ニューロンは刺激スパイクの時間間隔に逆比例してポテンシャルが高まるという性質があるのですが，Memristorも短い時間間隔で入力が到着すると抵抗の変化量が大きいという性質を持っており，より良いニューロンのモデルになっているとのことです。

　　この機能は，適当なバイアスを加えると，弱い記憶は時間がたつと薄れて消えて行き，他の記憶を入れる場所を空けるという脳の機能を実現するのに使えるとのことです。

　　HPがアナログ用途を当面は断念したのは，デバイスの製造ばらつきなどで，実用化が困難と判断したと思われますが，MIPTが特性が安定した大量のMemristorを作る技術を確立したのかどうかは不明です。

７．Cadenceがディープラーニング向けDSPを発表

　　2016年5月2日のEE Timesが，Candeceがディープラーニングに適したDSPを発表したと報じています。ディープラーニングにはNVIDIAのGPUが使われることが多いのですが，GPUは大量の浮動小数点演算を行うように設計されており，ディープラーニングの処理を行う場合は，エネルギー効率が良くない。これに対して，Cadence Tensilica Vision P6と呼ぶこのDSPは組込み用IPとして作られており，エネルギー効率が高いとのことです。

　　Cadenceは，昨年9月にVison P5を発表していますが，P6ではディープラーニング向けの命令追加などを行い，性能は最大4倍になっているとのことです。P6はP5の上位互換で，P5のコードはそのまま動き，その場合でも最大25%の性能向上が得られるとのことです。

　　記事にはブロックダイヤが載っており，命令メモリとデータメモリがそれぞれ2セット有り，データメモリは512bit幅で2バンク構成になっています。スカラプロセッシングユニットは4台，オプションのVFPUも4台あるという絵になっていますが，説明が無く，どう動くのか良く分かりません。演算器はFP16をサポートし，32WayのSIMDと思われます。演算器は256MACと書かれているので，それが8個あるようです。