最近の話題 2014年11月29日

1.SC14でのGordon Bell賞はD.E.ShawリサーチのANTON2が受賞

   Gordon Bell賞は並列処理の進歩をたどるため,革新的な方法で,高性能コンピューティングを科学,技術や解析に適用した成果に与えられる賞です。松岡先生が,マスコミの言うスパコンのノーベル賞という言い方にクレームを付けておられますが,たとえるならオリンピックとかワールドカップの方が近いと思います。そして,ノーベル賞は最大3人,オリンピックの団体競技でもせいぜい20人程度ではないかと思いますが,Gordon Bell賞の場合は論文の著者数に(多分)制限はないと思います。

  並列処理の進歩をたどるというのは,元々はBell氏は並列処理に否定的で,Amdahlの法則から,大規模な並列処理はうまく行かない。賭けをする感じで,うまく行ったらお金をあげるという形で始まったという説もあります。当初は,Bell氏が個人的に賞金を出していたのですが,今は,ACMの賞になっています。

  賞に応募するするには,革新的なやり方で高い性能を実現したことを示す論文を提出します。それを主催者側が審査して候補論文を選出します。今年の候補論文は5件で,ミュンヘン大学を中心とするグループの地震解析の論文,東大を中心とするグループの都市の地震シミュレーションの論文,そしてライデン大学と理研などが中心のグループの銀河系の進化のシミュレーションの論文の3つがスパコンを使う論文で,残りの2つが,高密度,低電力のニューロチップを開発しリアルタイムの画像認識をデモしたIBMのTrueNorthと,分子動力学専用スパコンのANTON2を開発し実用上意義のあるサイズのタンパク質の折り畳みのシミュレーションを可能にしたD.E.Shawリサーチの論文です。

 スパコン利用の研究と専用ハードを作る研究に優劣をつけるのは難しいと思うのですが,今年の受賞はD.E.Shawリサーチに決まりました。D.E,Shawリサーチの論文には,数え間違いでなければ45人の著者が載っており,45人がGordon Bell賞を受賞したことになります。もちろん,賞金は1回分で人数とは無関係です。

 ANTON1の時と違って,ポケットマネーでANTONを作るD.E.Shaw氏本人が論文発表を行ったのは迫力がありました。Shaw氏は大手ヘッジファンドD.E.Shawのオーナーで,大金持ちですが,コロンビア大の研究者でもあり,最近はヘッジファンドではなく,D.E.Shawリサーチに大部分の時間を割いているとのことです。

2.Student Cluster Challengeはテキサス大オースチン校が3連勝

  6人の学部学生が,壁のコンセントからの電力は120V 26A以下という制限の範囲内でHPCシステムを作り,HPLと課題の4つの実用アプリの性能などを競うStudent Cluster Challengeは,テキサス大オースチン校の3連勝という結果で終わりました,

  今回はアメリカ,オーストラリア,ドイツ,台湾,中国,シンガポールの6か国から12チームが参加しました。48時間連続でHPLの性能と4つのアプリの性能をを測定し,検査員の質問にどれだけ答えられるかなどで評価されます。今年はテキサス大オースチン校の3連勝という結果で終わりました。今回は,2011年以来のアクセラレータを使用しないシステムの勝利です。

  総合優勝とは別に表彰されるHPLの最高性能は,10.07TFlopsを出した台湾の国立精華大が受賞しました。

3.ORNLのSummitとLLNLのSierraスパコン

  2014年11月15日の話題でOak RidgeとLawrence Livermore国立研究所は,次世代のCORALスパコンのメーカーとしてIBMを選択したことを紹介しましたが,パートナーのNVIDIAがWhite Paperを公表し,中身がある程度明らかになりました。

  それによると,CPUはIBMの次世代プロセサPOWER9で,それにNVIDAの次々世代のVolta GPUをNVLinkで接続したノードを用いるとのことです。ノードのピーク演算性能は40TFlops以上となっています。

  ORNLのSummitは3400以上のノードを,MellanoxのEDR InfiniBandで接続し,全体で150〜300PFlopsの性能を持つシステムを構成します。LLNLのSierraはSequoiaを置き換えるもので,構成はSummitと同じですが,規模は100PFlops以上と書かれています。稼働時期はどちらも2017年の予定です。

  ノードあたりのメモリは512GB以上で,さらに800GBのNVRAMが付きます。ファイルシステムはIBMのElastic StorageでGPFSを使い,120PBの容量となっています。そして,消費電力は10MWで,ピーク27PFlopsのTitanの5倍以上の性能ですが,電力は10%増しに抑えています。

  NVLinkはコヒーレントなリンクで,CPUからGPUメモリ,GPUからCPUメモリをアクセスできるようになります。丁度,QPIでXeon同士を繋ぐようなことがPOWER9とVolta GPUの間で出来るようになるわけです。NVIDIAの絵では4本のNVLinkがGPUから出るように描かれていて,各リンクは20GB/sのバンド幅で,4本合計で80GB/sのバンド幅となります。PCIe3.0×16は16GB/sですから,5倍のバンド幅とNVIDIAは言っています。しかし,NVLink一本とPCIe3.0×16一本を比較すると20GB/sと16GB/sでバンド幅は大差ありません。大きな違いはコヒーレンス制御の有無です。

4.BULLがExaScale計画を発表

  2014年11月25日にHPC WireがBULLの発表を報じています。BULLのExaScaleプログラムは,次の要素から構成されています。

  SEQUANAは高速のインタコネクトを持ち,将来の世代のCPUやアクセラレータと互換性を持つように設計されているとのことです。また,BXIインタコネクトがインテリジェンスを持って通信を行うので,CPUは計算に専念でき処理が高速にできると書かれています。

  そして,Bullx 6000シリーズは巨大メモリを持ち,最初の製品であるS6130は最大で16CPU,24TBまでメモリが搭載でき,インメモリのデータ処理向けに作られているとのことです。

5.Rex Computing社が電力効率10倍のプロセサをOpen Computeで公開へ

  2014年11月24日のEE Timesが,二人のティーンエージャーが作ったRex Computingという会社が,従来の10倍の電力効率を持つ並列プロセサのアーキテクチャを公開すると報じています。

  IntelやNVIDIAのプロセサは消費電力が大きく,ExaFlopsのマシンを作るのは難しい。我々が提供しようとしているような新しいものが必要とのことです。創立者のSohmers氏はFacebookのOpen Compute ProjectのHigh Performance working groupのco-chaimanに選ばれたとのことで,一定の評価を受けているようです。

  そしてRex社は,1月にもneoと呼ぶこのプロセサの設計を終わり,OCPのグループとして公開するという方針だそうです。

  EE Timesの記事にコアの簡単な構成図が載っていますが,メッシュ接続のための4方向の接続ポートがある点と,キャッシュがなく,代わりに128kBのスクラッチパッドメモリがある程度で,ALUやFPU,RegFileは普通にあります。80mm2で256コアを集積しており,消費電力は3Wと書かれています。PEZY-SCが1024コアで411mm2(ただし,コア部分は80%くらい)ですから,面積はほぼ同じですが,3Wは驚異的に少ない消費電力です。

 各コアは隣接コアに対して16GB/sのバンド幅を持ち,チップ間の接続は合計で384GB/sと書かれています。

 この256コアのチップを4×4に並べてメッシュ接続したGridにGaMMUと呼ぶGridマネージャ,I/OコントローラとDDR RAMのコントローラを集積したチップを接続したものがノードとなります。これでOCPの1Uのシャシーの1/3に収容できるとのことです。

 しかし,この構成では256×16=4096コアに対してDDR RAMが4チャネルしかなく,しかもGaMMUというチップを経由して,さらにメッシュを通して演算チップに接続されるので,レーテンシは長いし,バンド幅も制限されます。そしてキャッシュが無くてスクラッチパッドメモリですから,プログラミングは相当面倒そうです。

 キャッシュでなくスクラッチパッドメモリであること,コアあたりのメモリ量がロジックと比較して大きいことは,消費電力を減らす効果はありますが,それでも256コアで3Wはかなり小さい値です。しかし,汎用のプロセサであれば面積あたりのCはそれほど違わず,電力が小さいのは,電源電圧とクロックを下げているためではないかと思われます。このノードは倍精度で50GFlops/Wを実現できると書かれていますが,そうすると3Wのチップで150GFlopsで,コアあたり0.6GFlopsです。各コアが1サイクルに1回の積和演算とするとクロックは300MHz,積か和のどちらかを1回とすると600MHzで,それほど速いクロックではなさそうです。

 また,チップ間のリンクでの転送に1pJ/bitのエネルギーとしても,384GB/sの転送には約3W必要で,本当にこのチップが3Wで動くのでしょうか?




inserted by FC2 system